論文の概要: NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
- arxiv url: http://arxiv.org/abs/2406.06499v3
- Date: Sat, 15 Feb 2025 10:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:03:39.536207
- Title: NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
- Title(参考訳): NarrativeBridge: 因果的物語によるビデオキャプションの強化
- Authors: Asmar Nadeem, Faegheh Sardari, Robert Dawes, Syed Sameed Husain, Adrian Hilton, Armin Mustafa,
- Abstract要約: 既存のビデオキャプションベンチマークとモデルは因果的物語を欠いている。
この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。
本研究では,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新規な因果的ナラティブ(CTN)キャプションベンチマークと,(2)原因と影響のダイナミクスを捉えるための別エンコーダを備えた因果効果ネットワーク(CEN)とからなるアプローチであるナラティブブリッジを提案する。
- 参考スコア(独自算出の注目度): 19.79736018383692
- License:
- Abstract: Existing video captioning benchmarks and models lack causal-temporal narrative, which is sequences of events linked through cause and effect, unfolding over time and driven by characters or agents. This lack of narrative restricts models' ability to generate text descriptions that capture the causal and temporal dynamics inherent in video content. To address this gap, we propose NarrativeBridge, an approach comprising of: (1) a novel Causal-Temporal Narrative (CTN) captions benchmark generated using a large language model and few-shot prompting, explicitly encoding cause-effect temporal relationships in video descriptions; and (2) a Cause-Effect Network (CEN) with separate encoders for capturing cause and effect dynamics, enabling effective learning and generation of captions with causal-temporal narrative. Extensive experiments demonstrate that CEN significantly outperforms state-of-the-art models in articulating the causal and temporal aspects of video content: 17.88 and 17.44 CIDEr on the MSVD-CTN and MSRVTT-CTN datasets, respectively. Cross-dataset evaluations further showcase CEN's strong generalization capabilities. The proposed framework understands and generates nuanced text descriptions with intricate causal-temporal narrative structures present in videos, addressing a critical limitation in video captioning. For project details, visit https://narrativebridge.github.io/.
- Abstract(参考訳): 既存のビデオキャプションベンチマークとモデルには因果的物語がなく、原因と効果によってリンクされた出来事のシーケンスであり、時間とともに展開され、文字やエージェントによって駆動される。
この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。
このギャップに対処するために,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新規な因果的ナラティブ(CTN)キャプションベンチマーク,(2)因果的ナラティブ(因果的ナラティブ)を別個のエンコーダで記録し,因果的ナラティブ(因果的ナラティブ)を効果的に学習し,因果的ナラティブ(因果的ナラティブ)を伴うキャプションを生成するナラティブブリッジ(NarrativeBridge)を提案する。
大規模な実験により、CENは、MSVD-CTNデータセットとMSRVTT-CTNデータセットの17.88と17.44CIDErという、ビデオコンテンツの因果的側面と時間的側面を明確に表す上で、最先端モデルよりも大幅に優れていることが示された。
データセット間の評価はさらに、CENの強力な一般化能力を示している。
提案フレームワークは,ビデオ中の複雑な因果的物語構造を持つニュアンステキスト記述を理解し,生成し,ビデオキャプションにおける限界に対処する。
プロジェクトの詳細については、https://narrativebridge.github.io/.com/を参照してください。
関連論文リスト
- Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models [12.907590808274358]
本稿では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるために,リッチコンテキスト拡散モデル(RCDM)を提案する。
RCDMは、自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
論文 参考訳(メタデータ) (2024-07-02T17:58:07Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。