論文の概要: Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)
- arxiv url: http://arxiv.org/abs/2312.07418v3
- Date: Sun, 19 May 2024 15:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 23:50:08.736970
- Title: Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)
- Title(参考訳): ネパールにおけるビデオキャプションのためのアテンションベースエンコーダデコーダモデル(2023年)
- Authors: Kabita Parajuli, Shashidhar Ram Joshi,
- Abstract要約: 本研究は,ネパール語ビデオキャプションのためのエンコーダ-デコーダパラダイムを開発し,この問題に対処する。
LSTMおよびGRUシーケンス・ツー・シーケンスモデルを用いて、CNNを用いてビデオフレームから検索した特徴に基づいて関連するテキスト記述を生成する。
ビデオキャプションのモデルの有効性をBLEU, METOR, ROUGEで実証し, その性能評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning in Nepali, a language written in the Devanagari script, presents a unique challenge due to the lack of existing academic work in this domain. This work develops a novel encoder-decoder paradigm for Nepali video captioning to tackle this difficulty. LSTM and GRU sequence-to-sequence models are used in the model to produce related textual descriptions based on features retrieved from video frames using CNNs. Using Google Translate and manual post-editing, a Nepali video captioning dataset is generated from the Microsoft Research Video Description Corpus (MSVD) dataset created using Google Translate, and manual post-editing work. The efficiency of the model for Devanagari-scripted video captioning is demonstrated by BLEU, METOR, and ROUGE measures, which are used to assess its performance.
- Abstract(参考訳): デバナガリ文字で書かれた言語であるネパール語でのビデオキャプションは、この領域に既存の学術研究が欠如していることから、独特な挑戦である。
本研究は,ネパール語ビデオキャプションのためのエンコーダ-デコーダパラダイムを開発し,この問題に対処する。
LSTMおよびGRUシーケンス・ツー・シーケンスモデルを用いて、CNNを用いてビデオフレームから検索した特徴に基づいて関連するテキスト記述を生成する。
Google Translateと手動のポスト編集を使用して、Google Translateを使用して作成したMicrosoft Research Video Description Corpus(MSVD)データセットと手動のポスト編集作業から、ネパールのビデオキャプションデータセットを生成する。
ビデオキャプションのモデルの有効性をBLEU, METOR, ROUGEで実証し, その性能評価を行った。
関連論文リスト
- VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video
Captioning [0.0]
本研究は,ビデオデータのテキストキャプションへの多対多マッピングを実現するために,エンコーダ・デコーダモデルの実装と利用を実証する。
多対多のマッピングは、ビデオフレームの入力時間シーケンスから、単語の出力シーケンスを経て、キャプション文を形成する。
論文 参考訳(メタデータ) (2023-10-02T02:32:26Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Guidance Module Network for Video Captioning [19.84617164810336]
抽出した映像の特徴の正規化は,映像キャプションの最終的な性能を向上させることができる。
本稿では,過去および将来の単語に関連する単語をキャプションで生成するエンコーダデコーダモデルを促進するためのガイダンスモジュールを導入する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-20T14:02:28Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。