論文の概要: Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval
- arxiv url: http://arxiv.org/abs/2605.16481v1
- Date: Fri, 15 May 2026 17:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.325815
- Title: Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval
- Title(参考訳): ビジュアルエージェントメモリ:オンラインインデックス、階層記憶、エージェント検索によるオンラインロングビデオ理解の実現
- Authors: Aiden Yiliu Li, Nels Numan, Anthony Steed,
- Abstract要約: Visual Agentic Memory (VAM)は3つのコンポーネントを持つトレーニング不要のフレームワークである。
オンラインインデックスは、ストリーミング制約下での選択的エビデンス保持をサポートする。
階層記憶は並列表現において証拠を保持する。
エージェント検索は、候補者の証拠を検索し、検査し、検証する。
- 参考スコア(独自算出の注目度): 5.3767322957693695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long video understanding requires more than large context windows. It also needs a memory mechanism that decides what visual evidence to retain, keeps it searchable over long horizons, and grounds later reasoning in recoverable observations rather than compressed latent state alone. We propose Visual Agentic Memory (VAM), a training-free framework with three components. Online Indexing supports selective evidence retention under streaming constraints. Hierarchical Memory organises retained evidence in a Parallel Representation that aligns temporal context with spatial observations. Agentic Retrieval searches, inspects, and verifies candidate evidence before producing a grounded answer. On OVO-Bench, VAM achieves the highest RT+BT average (68.41) across all reported baselines, improving over end-to-end use of the same underlying MLLM (Gemini 3 Flash, 67.46). On the month-scale split of MM-Lifelong train@month (105.6 hours over 51 days), VAM reaches 17.11%, second only to ReMA with GPT-5 (17.62%). These results suggest that long-horizon video understanding benefits from treating visual memory as an explicit, inspectable, and queryable substrate. Code is available at https://github.com/yiliu-li/Visual-Agentic-Memory.
- Abstract(参考訳): 長いビデオ理解には、大きなコンテキストウィンドウ以上のものが必要です。
また、どの視覚的証拠を保持するべきかを判断し、長い地平線上で探索できるようにし、後に圧縮された潜伏状態ではなく、回復可能な観測を行うための基礎となる記憶機構も必要である。
3つのコンポーネントを持つトレーニング不要のフレームワークであるVisual Agentic Memory (VAM)を提案する。
オンラインインデックスは、ストリーミング制約下での選択的エビデンス保持をサポートする。
階層記憶(Hierarchical Memory)は、時間的文脈と空間的観察を一致させる並列表現における証拠を整理する。
エージェント検索は、根拠のある回答を生成する前に、候補者の証拠を検索し、検査し、検証する。
OVO-Benchでは、VAMは報告されたすべてのベースラインでRT+BT平均(68.41)が最も高く、同じ基盤となるMLLM(Gemini 3 Flash, 67.46)のエンド・ツー・エンドの使用よりも改善されている。
MM-Lifelongの月別分割(51日間で105.6時間)では、VAMは17.11%に達し、GPT-5(17.62%)のReMAに次いで2位である。
これらの結果は、視覚記憶を明示的で、検査可能で、問合せ可能な基板として扱うことにより、長期的映像理解の利点が示唆された。
コードはhttps://github.com/yiliu-li/Visual-Agentic-Memoryで入手できる。
関連論文リスト
- MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory [80.97855900579512]
既存の評価では、エージェントが後続の推論に必要な視覚的証拠を保存するかどうかを検査することはめったにない。
メモリ性能を2次元から評価するフレームワークであるMemEyeを紹介する。
本フレームワークでは,8つのライフシナリオタスクにまたがる新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2026-05-14T17:37:52Z) - MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models [50.25006399944962]
メモリは、長いマルチモーダル相互作用を扱うために、大きな視覚言語モデルにとって不可欠である。
MEMLENSはマルチモーダルマルチセッション会話におけるメモリのベンチマークである。
我々は27個のLVLMと7個のメモリ増強剤を評価した。
論文 参考訳(メタデータ) (2026-05-14T14:41:17Z) - VideoSEAL: Mitigating Evidence Misalignment in Agentic Long Video Understanding by Decoupling Answer Authority [10.961731621875918]
長いビデオの質問応答には、非常に冗長なコンテンツの中で、スパースでタイムインスペクションされた視覚的証拠を見つける必要がある。
既存のLVUエージェントが「エビデンスミスアライメント」を提示できることを示す。
本稿では,画素レベルの検証において,解答権限とゲートの最終的な解答とを分離した分離型プランナー・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T10:37:49Z) - EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding [89.26501160264199]
EgoMemReasonは、メモリ駆動推論を通じて、1週間のエゴセントリックなビデオ理解を体系的に評価する。
EgoMemReasonには3つのメモリタイプと6つのコア課題に関する500の質問が含まれている。
EgoMemReasonをMLLMとエージェントフレームワークにまたがる17の手法で評価する。
論文 参考訳(メタデータ) (2026-05-11T01:59:59Z) - Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding [16.406614655485722]
本稿では,長期的ビデオ理解のためのフレームワークであるQViC-MF(QViC-MF)を提案する。
コアとなるQMSAは、現在のクリップと過去の関連フレームの両方から与えられた質問に関連する視覚情報をメモリから保存することを学ぶ。
MLVU試験では6.1%,LVBenchでは8.3%,VNBench Longでは18.3%,VideoMME Longでは3.7%,最先端手法では6.1%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-16T12:01:58Z) - EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents [52.567469286881426]
本稿では,対話型ゲームによるエージェントの長期記憶評価のためのプログラムベンチマークEMemBenchを紹介する。
固定された質問セットを使う代わりに、EMemBenchは各エージェント自身の軌道から質問を生成する。
各テンプレートは、下層のゲーム信号から検証済みの真理を計算する。
論文 参考訳(メタデータ) (2026-01-23T12:09:59Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。