論文の概要: NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
- arxiv url: http://arxiv.org/abs/2406.06499v1
- Date: Mon, 10 Jun 2024 17:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:29:56.378127
- Title: NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
- Title(参考訳): NarrativeBridge: 因果的物語によるビデオキャプションの強化
- Authors: Asmar Nadeem, Faegheh Sardari, Robert Dawes, Syed Sameed Husain, Adrian Hilton, Armin Mustafa,
- Abstract要約: 既存のビデオキャプションベンチマークとモデルは、因果的時間的物語のコヒーレントな表現を欠いている。
この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。
本研究では,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新しい因果的ナラティブ(CTN)キャプションベンチマークと,(2)原因と影響のダイナミクスを独立に捉えるための別個のエンコーダを備えた専用因果的ネットワーク(CEN)アーキテクチャからなるナラティブブリッジを提案する。
- 参考スコア(独自算出の注目度): 19.79736018383692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video captioning benchmarks and models lack coherent representations of causal-temporal narrative, which is sequences of events linked through cause and effect, unfolding over time and driven by characters or agents. This lack of narrative restricts models' ability to generate text descriptions that capture the causal and temporal dynamics inherent in video content. To address this gap, we propose NarrativeBridge, an approach comprising of: (1) a novel Causal-Temporal Narrative (CTN) captions benchmark generated using a large language model and few-shot prompting, explicitly encoding cause-effect temporal relationships in video descriptions, evaluated automatically to ensure caption quality and relevance; and (2) a dedicated Cause-Effect Network (CEN) architecture with separate encoders for capturing cause and effect dynamics independently, enabling effective learning and generation of captions with causal-temporal narrative. Extensive experiments demonstrate that CEN is more accurate in articulating the causal and temporal aspects of video content than the second best model (GIT): 17.88 and 17.44 CIDEr on the MSVD and MSR-VTT datasets, respectively. The proposed framework understands and generates nuanced text descriptions with intricate causal-temporal narrative structures present in videos, addressing a critical limitation in video captioning. For project details, visit https://narrativebridge.github.io/.
- Abstract(参考訳): 既存のビデオキャプションベンチマークとモデルは因果的物語のコヒーレントな表現を欠いている。
この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。
このギャップに対処するために,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新しい因果関係(CTN)キャプションベンチマークを用いて,ビデオ記述における因果関係を明示的に符号化し,キャプションの品質と関連性を確保するために自動的に評価するNarrativeBridgeと,(2)因果関係を独立に捉えるための専用エンコーダを備えた因果関係(CEN)アーキテクチャを提案する。
大規模な実験により、CENは第2のベストモデル(GIT)よりも、ビデオコンテンツの因果的側面と時間的側面を明確にする上で、それぞれMSVDデータセットとMSR-VTTデータセットの17.88と17.44CIDErが正確であることが示されている。
提案フレームワークは,ビデオ中の複雑な因果的物語構造を持つニュアンステキスト記述を理解し,生成し,ビデオキャプションにおける限界に対処する。
プロジェクトの詳細については、https://narrativebridge.github.io/.com/を参照してください。
関連論文リスト
- Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models [12.907590808274358]
本稿では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるために,リッチコンテキスト拡散モデル(RCDM)を提案する。
RCDMは、自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
論文 参考訳(メタデータ) (2024-07-02T17:58:07Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。