論文の概要: VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2512.12360v1
- Date: Sat, 13 Dec 2025 15:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.229858
- Title: VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
- Title(参考訳): VideoARM: 長時間のビデオ理解のための階層記憶に対するエージェント推論
- Authors: Yufei Yin, Qianke Meng, Minghao Chen, Jiajun Ding, Zhenwei Shao, Zhou Yu,
- Abstract要約: VideoARMは、長めのビデオ理解のためのエージェント推論と階層メモリのパラダイムである。
静的で徹底的な前処理の代わりに、VideoARMは適応的でオンザフライのエージェント推論とメモリ構成を実行する。
一般的なベンチマーク実験では、VideoARMは最先端の方法であるDVDよりも優れており、ロングフォームビデオのトークン消費は大幅に減少している。
- 参考スコア(独自算出の注目度): 21.301669124238693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video understanding remains challenging due to the extended temporal structure and dense multimodal cues. Despite recent progress, many existing approaches still rely on hand-crafted reasoning pipelines or employ token-consuming video preprocessing to guide MLLMs in autonomous reasoning. To overcome these limitations, we introduce VideoARM, an Agentic Reasoning-over-hierarchical-Memory paradigm for long-form video understanding. Instead of static, exhaustive preprocessing, VideoARM performs adaptive, on-the-fly agentic reasoning and memory construction. Specifically, VideoARM performs an adaptive and continuous loop of observing, thinking, acting, and memorizing, where a controller autonomously invokes tools to interpret the video in a coarse-to-fine manner, thereby substantially reducing token consumption. In parallel, a hierarchical multimodal memory continuously captures and updates multi-level clues throughout the operation of the agent, providing precise contextual information to support the controller in decision-making. Experiments on prevalent benchmarks demonstrate that VideoARM outperforms the state-of-the-art method, DVD, while significantly reducing token consumption for long-form videos.
- Abstract(参考訳): 時間的構造と密集したマルチモーダルキューのため、長めのビデオ理解は依然として困難である。
最近の進歩にもかかわらず、既存の多くのアプローチは依然として手作りの推論パイプラインに依存している。
これらの制限を克服するために,長文ビデオ理解のためのエージェント推論と階層メモリのパラダイムであるVideoARMを導入する。
静的で徹底的な前処理の代わりに、VideoARMは適応的でオンザフライのエージェント推論とメモリ構成を実行する。
特に、VideoARMは、観察、思考、行動、記憶という適応的かつ連続的なループを実行し、コントローラが独立して動画を粗い方法で解釈するツールを起動し、トークン消費を大幅に削減する。
並行して、階層型マルチモーダルメモリはエージェントの操作を通して複数のレベルの手がかりを連続的にキャプチャし、更新し、意思決定においてコントローラをサポートするための正確なコンテキスト情報を提供する。
一般的なベンチマーク実験では、VideoARMは最先端の方法であるDVDよりも優れており、ロングフォームビデオのトークン消費は大幅に減少している。
関連論文リスト
- VideoMem: Enhancing Ultra-Long Video Understanding via Adaptive Memory Management [17.645183933549458]
VideoMemは、適応メモリ管理によるシーケンシャルな生成タスクとして、長いビデオ理解をモデル化する新しいフレームワークである。
我々は,VMemが,超長期ビデオ理解タスクの様々なベンチマークにおいて,既存のオープンソースモデルを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-04T07:42:13Z) - GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。
これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。
実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文 参考訳(メタデータ) (2025-11-15T04:29:00Z) - Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。
我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-07-11T23:07:04Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。