論文の概要: GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory
- arxiv url: http://arxiv.org/abs/2511.12027v1
- Date: Sat, 15 Nov 2025 04:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.514628
- Title: GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory
- Title(参考訳): GCAgent: スキーマとナラティブなエピソード記憶による長時間のビデオ理解
- Authors: Jeong Hun Yeo, Sangyun Chung, Sungjune Park, Dae Hoe Kim, Jinyoung Moon, Yong Man Ro,
- Abstract要約: GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。
これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。
実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 59.869552603264076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-video understanding remains a significant challenge for Multimodal Large Language Models (MLLMs) due to inherent token limitations and the complexity of capturing long-term temporal dependencies. Existing methods often fail to capture the global context and complex event relationships necessary for deep video reasoning. To address this, we introduce GCAgent, a novel Global-Context-Aware Agent framework that achieves comprehensive long-video understanding. Our core innovation is the Schematic and Narrative Episodic Memory. This memory structurally models events and their causal and temporal relations into a concise, organized context, fundamentally resolving the long-term dependency problem. Operating in a multi-stage Perception-Action-Reflection cycle, our GCAgent utilizes a Memory Manager to retrieve relevant episodic context for robust, context-aware inference. Extensive experiments confirm that GCAgent significantly enhances long-video understanding, achieving up to 23.5\% accuracy improvement on the Video-MME Long split over a strong MLLM baseline. Furthermore, our framework establishes state-of-the-art performance among comparable 7B-scale MLLMs, achieving 73.4\% accuracy on the Long split and the highest overall average (71.9\%) on the Video-MME benchmark, validating our agent-based reasoning paradigm and structured memory for cognitively-inspired long-video understanding.
- Abstract(参考訳): 長いビデオ理解は、固有のトークン制限と長期の時間的依存関係をキャプチャする複雑さのために、MLLM(Multimodal Large Language Models)にとって重要な課題である。
既存の手法は、ディープビデオ推論に必要なグローバルコンテキストと複雑なイベント関係をキャプチャできないことが多い。
これを解決するために,GCAgentという,包括的長ビデオ理解を実現する新しいグローバル・コンテキスト・アウェア・エージェント・フレームワークを紹介した。
私たちの中心となるイノベーションは、スキーマとナラティブ・エピソード記憶です。
この記憶は、イベントとその因果関係と時間関係を簡潔で組織化された文脈にモデル化し、長期的な依存関係の問題を根本的に解決する。
GCAgentは多段階のパーセプション・アクション・リフレクション・サイクルで動作し、メモリマネージャを使用して関連するエピソードコンテキストを検索し、ロバストでコンテキスト対応の推論を行う。
広範囲な実験により、GCAgentは長いビデオの理解を著しく向上させ、強力なMLLMベースライン上でのVideo-MME Long分割において最大23.5\%の精度向上を実現した。
さらに、このフレームワークは、7BスケールのMLLMの最先端性能を確立し、Longスプリットで73.4\%、Video-MMEベンチマークで最高平均(71.9\%)を達成し、認知に着想を得たロングビデオ理解のためのエージェントベースの推論パラダイムと構造化メモリを検証した。
関連論文リスト
- Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
本稿では,HERMESについて紹介する。
2つの汎用モジュールは、既存のビデオ言語モデルを強化したり、スタンドアロンシステムとして運用することができる。
HERMESは、ゼロショットとフル教師付き設定の両方において、複数の長ビデオ理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-30T17:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。