論文の概要: Bridging Modalities, Spanning Time: Structured Memory for Ultra-Long Agentic Video Reasoning
- arxiv url: http://arxiv.org/abs/2605.08271v1
- Date: Fri, 08 May 2026 03:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.518582
- Title: Bridging Modalities, Spanning Time: Structured Memory for Ultra-Long Agentic Video Reasoning
- Title(参考訳): ブリジングモードとスパンニングタイム:超長距離エージェントビデオ再生のための構造化記憶
- Authors: Jiazheng Li, Chi-Hao Wu, Yunze Liu, Kaize Ding, Jundong Li, Chuxu Zhang,
- Abstract要約: MAGIC-Videoは、インターリーブされた物語チェーンを備えたマルチモーダルメモリグラフを中心に構築されたフレームワークである。
EgoLifeQA、Ego-R1、MM-Lifelongでは、MAGIC-Videoは一貫して、強力な汎用、長期ビデオ、エージェントベースラインを上回っている。
- 参考スコア(独自算出の注目度): 82.97398529552166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding ultra-long videos such as egocentric recordings, live streams, or surveillance footage spanning days to weeks, remains a challenge. For current multimodal LLMs: even with million-token context windows, frame budgets cover only tens of minutes of densely sampled video, and most evidence is discarded before inference begins. Memory-augmented and agentic approaches help with scale, but their retrieval remains fragmented across modalities and lacks long-range narrative summaries that span days or weeks. We propose \textbf{MAGIC-Video}, a training-free framework built around a multimodal memory graph with interleaved narrative chain: the graph unifies episodic, semantic, and visual content through six typed edges and supports cross-modal retrieval, while the chain distils long-horizon entity biographies and recurring activity events. At inference time, an agentic loop interleaves graph retrieval with narrative fact injection, covering both the modality and time dimensions of ultra-long video in a single retrieval pipeline. On EgoLifeQA, Ego-R1 and MM-Lifelong, MAGIC-Video consistently outperforms strong general-purpose, long-video, and agentic baselines, with gains of 10.1, 7.4, and 5.9 points over the prior best agentic system on each benchmark. Code is available at https://github.com/lijiazheng0917/MAGIC-video.
- Abstract(参考訳): エゴセントリックな録画やライブストリーム、数日から数週間にわたる監視映像などの超長いビデオを理解することは、依然として難しい課題だ。
現在のマルチモーダルLCMでは、100万のコンテキストウインドウであっても、フレーム予算は密集したサンプルビデオのほんの数分間しかカバーせず、ほとんどの証拠は推論が始まる前に破棄される。
メモリ拡張とエージェントアプローチはスケールに役立つが、その検索はモダリティによって断片化され、数日や数週間にわたる長い物語の要約が欠如している。
グラフは6つの型付きエッジを通じてエピソード、セマンティック、視覚的コンテンツを統一し、クロスモーダル検索をサポートし、チェーンは長軸のエンティティのバイオグラフィーと繰り返しの活動イベントを排除し、マルチモーダルなメモリグラフを中心に構築されたトレーニング不要のフレームワークである。
推論時には、エージェントループがグラフ検索と物語的事実注入をインターリーブし、単一の検索パイプラインにおける超長ビデオのモダリティと時間次元の両方をカバーする。
EgoLifeQA、Ego-R1、MM-Lifelongでは、MAGIC-Videoは、各ベンチマークで上位のエージェントシステムよりも10.1、7.4、および5.9ポイント向上し、強力な汎用、長ビデオ、エージェントベースラインを一貫して上回っている。
コードはhttps://github.com/lijiazheng0917/MAGIC-videoで公開されている。
関連論文リスト
- Agentic Very Long Video Understanding [39.34545320553102]
EGAgentはエンティティシーングラフを中心とした強化されたエージェントフレームワークで、時間とともに人、場所、オブジェクト、それらの関係を表現する。
提案システムは,これらのグラフに対する構造化検索と推論のためのツールと,視覚と音声のハイブリッド検索機能を備えており,詳細な,横断的,時間的に整合した推論を可能にする。
EgoLifeQA と Video-MME (Long) のデータセットから,EgoLifeQA (57.5%) の最先端性能と,複雑な長手ビデオ理解タスクにおける Video-MME (74.1%) の競合性能が得られた。
論文 参考訳(メタデータ) (2026-01-26T05:20:47Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。