論文の概要: NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
- arxiv url: http://arxiv.org/abs/2406.06499v2
- Date: Sat, 05 Oct 2024 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:10:27.312868
- Title: NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
- Title(参考訳): NarrativeBridge: 因果的物語によるビデオキャプションの強化
- Authors: Asmar Nadeem, Faegheh Sardari, Robert Dawes, Syed Sameed Husain, Adrian Hilton, Armin Mustafa,
- Abstract要約: 既存のビデオキャプションベンチマークとモデルは、因果的時間的物語のコヒーレントな表現を欠いている。
本研究では,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新しい因果的ナラティブ(CTN)キャプションベンチマークと,(2)原因と影響のダイナミクスを独立に捉えるための別個のエンコーダを備えた専用因果的ネットワーク(CEN)アーキテクチャからなるナラティブブリッジを提案する。
- 参考スコア(独自算出の注目度): 19.79736018383692
- License:
- Abstract: Existing video captioning benchmarks and models lack coherent representations of causal-temporal narrative, which is sequences of events linked through cause and effect, unfolding over time and driven by characters or agents. This lack of narrative restricts models' ability to generate text descriptions that capture the causal and temporal dynamics inherent in video content. To address this gap, we propose NarrativeBridge, an approach comprising of: (1) a novel Causal-Temporal Narrative (CTN) captions benchmark generated using a large language model and few-shot prompting, explicitly encoding cause-effect temporal relationships in video descriptions, evaluated automatically to ensure caption quality and relevance and validated through human evaluation; and (2) a dedicated Cause-Effect Network (CEN) architecture with separate encoders for capturing cause and effect dynamics independently, enabling effective learning and generation of captions with causal-temporal narrative. Extensive experiments demonstrate that CEN significantly outperforms state-of-the-art models, including fine-tuned vision-language models, and is more accurate in articulating the causal and temporal aspects of video content than the second best model (GIT): 17.88 and 17.44 CIDEr on the MSVD and MSR-VTT datasets, respectively. Cross-dataset evaluations further showcase CEN's strong generalization capabilities. The proposed framework understands and generates nuanced text descriptions with intricate causal-temporal narrative structures present in videos, addressing a critical limitation in video captioning.
- Abstract(参考訳): 既存のビデオキャプションベンチマークとモデルは因果的物語のコヒーレントな表現を欠いている。
この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。
このギャップに対処するために,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新しい因果関係(CTN)キャプションベンチマークを用いて,映像記述における因果関係を明示的に符号化し,自動評価によりキャプションの品質と妥当性を保証し,人間による評価により検証するナラティブブリッジ,(2)原因と効果を独立に捉えるための専用エンコーダを備えた因果関係(CEN)アーキテクチャを提案する。
広汎な実験により、CENは微調整された視覚言語モデルを含む最先端モデルよりも優れており、MSVDデータセットとMSR-VTTデータセットの17.88 CIDErと17.44 CIDErよりもビデオコンテンツの因果的側面と時間的側面をより正確に表現できることが示されている。
データセット間の評価はさらに、CENの強力な一般化能力を示している。
提案フレームワークは,ビデオ中の複雑な因果的物語構造を持つニュアンステキスト記述を理解し,生成し,ビデオキャプションにおける限界に対処する。
関連論文リスト
- Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models [12.907590808274358]
本稿では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるために,リッチコンテキスト拡散モデル(RCDM)を提案する。
RCDMは、自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
論文 参考訳(メタデータ) (2024-07-02T17:58:07Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - DiffuVST: Narrating Fictional Scenes with Global-History-Guided
Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。
一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。
本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文 参考訳(メタデータ) (2023-12-12T08:40:38Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。