論文の概要: Event-Causal RAG: A Retrieval-Augmented Generation Framework for Long Video Reasoning in Complex Scenarios
- arxiv url: http://arxiv.org/abs/2605.06185v1
- Date: Thu, 07 May 2026 13:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.805073
- Title: Event-Causal RAG: A Retrieval-Augmented Generation Framework for Long Video Reasoning in Complex Scenarios
- Title(参考訳): Event-Causal RAG:複雑なシナリオにおけるロングビデオ推論のための検索拡張生成フレームワーク
- Authors: Peizheng Yan, Yu Zhao, Liang Xie, Juntong Qi, Mingming Wang, Erwei Yin,
- Abstract要約: Event-Causal RAGは、無限長ビデオ推論のための軽量な検索拡張フレームワークである。
ストリーミングビデオを意味的に一貫性のあるイベントにセグメントし、各イベントを構造化されたステート-イベント-ステートグラフとして表現する。
このメモリ上に、最も関連性の高いイベント因果連鎖を効率的に識別するための双方向検索戦略を設計する。
- 参考スコア(独自算出の注目度): 9.729442664774988
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent large vision-language models have achieved strong performance on short- and medium-length video understanding, yet they remain inadequate for ultra-long or even infinite video reasoning, where models must preserve coherent memory over extended durations and infer causal dependencies across temporally distant events. Existing end-to-end video understanding methods are fundamentally limited by the $O(n^2)$ complexity of self-attention, while recent retrieval-augmented generation (RAG) approaches still suffer from fragmented clip-level memory, weak modeling of temporal and causal structure, and high storage and online inference costs. We present Event-Causal RAG, a lightweight retrieval-augmented framework for infinite long-video reasoning. Instead of indexing fixed-length clips, our method segments streaming videos into semantically coherent events and represents each event as a structured State-Event-State (SES) graph, capturing the event together with its surrounding state transitions. These graphs are merged into a global Event Knowledge Graph and stored in a dual-store memory that supports both semantic matching and causal-topological retrieval. On top of this memory, we design a bidirectional retrieval strategy to efficiently identify the most relevant event causal chains and provide them, together with the associated video evidence, to a backbone video foundation model for answer generation. Experiments on long-video understanding benchmarks demonstrate that Event-Causal RAG consistently outperforms strong clip-based retrieval baselines and long-context video models, particularly on questions requiring multi-event integration and causal inference across long temporal gaps, while also achieving improved memory efficiency and robust streaming performance.
- Abstract(参考訳): 近年の大規模視覚言語モデルは、短距離・中距離の映像理解において強力な性能を保っているが、超長大・無限大のビデオ推論には不適切であり、モデルが長期にわたってコヒーレントな記憶を保ち、時間的に離れた事象に因果的依存関係を推測しなければならない。
既存のエンド・ツー・エンドの動画理解手法は、O(n^2)$の自己アテンションの複雑さによって基本的に制限されているが、最近の検索強化世代(RAG)アプローチは、まだ断片化されたクリップレベルのメモリ、時間的・因果構造の弱いモデリング、高ストレージとオンライン推論コストに悩まされている。
無限長ビデオ推論のための軽量検索拡張フレームワークであるEvent-Causal RAGを提案する。
固定長クリップをインデックス化する代わりに,ビデオのセグメンテーションを意味的に一貫性のあるイベントに分割し,各イベントを構造化されたステートイベント状態(SES)グラフとして表現し,その周辺の状態遷移とともにイベントをキャプチャする。
これらのグラフはグローバルなイベント知識グラフにマージされ、セマンティックマッチングと因果トポロジー検索の両方をサポートするデュアルストアメモリに格納される。
このメモリ上に、最も関連性の高いイベント因果連鎖を効率的に識別し、関連するビデオエビデンスとともに、応答生成のためのバックボーンビデオ基盤モデルに提供するための双方向検索戦略を設計する。
ロングビデオ理解ベンチマークの実験では、Event-Causal RAGは、強いクリップベースの検索ベースラインとロングコンテキストビデオモデル、特に長時間の時間的ギャップをまたいだマルチイベント統合と因果推論を必要とする問題において、一貫してパフォーマンスが向上し、メモリ効率とロバストなストリーミング性能も向上している。
関連論文リスト
- EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use [9.106278853322008]
EventMemAgentは階層型メモリモジュールに基づくアクティブなオンラインビデオエージェントフレームワークである。
短期記憶はイベント境界を検知し、イベントグラニュラー貯水池サンプリングを用いてストリーミングビデオフレームを処理する。
実験によると、EventMemAgentはオンラインビデオのベンチマークで競合する結果を内部化している。
論文 参考訳(メタデータ) (2026-02-17T03:17:24Z) - GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。
これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。
実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文 参考訳(メタデータ) (2025-11-15T04:29:00Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。