論文の概要: WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
- arxiv url: http://arxiv.org/abs/2512.02425v1
- Date: Tue, 02 Dec 2025 05:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.732836
- Title: WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
- Title(参考訳): WorldMM:ロングビデオ推論のための動的マルチモーダルメモリエージェント
- Authors: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang,
- Abstract要約: 我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 66.24870234484668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.
- Abstract(参考訳): ビデオ大言語モデルの最近の進歩は、短いクリップを理解する上で強力な能力を示している。
しかし、コンテクストの容量が限られており、抽象化中に重要な視覚的詳細が失われているため、数時間ないし数日のビデオにスケールすることは依然として非常に困難である。
既存のメモリ拡張手法は、ビデオセグメントのテキスト要約を活用することでこれを緩和するが、テキストに大きく依存し、複雑なシーンを推論する際に視覚的証拠を活用できない。
さらに、固定時間スケールから取得することで、変動期間にまたがるイベントをキャプチャする際の柔軟性をさらに制限する。
そこで本研究では,マルチモーダルメモリエージェントであるWorldMMを導入し,テキストと視覚の両方を包含して,複数の補完記憶から構築・検索する。
WorldMMは3種類のメモリで構成されている: エピソード記憶インデックスは複数の時間スケールにわたる事実事象を表現し、セマンティック記憶は継続的に高レベルの概念的知識を更新し、視覚記憶はシーンに関する詳細な情報を保存する。
推論中、適応検索エージェントは、最も関連性の高いメモリソースを反復的に選択し、クエリに基づいて複数の時間的粒度を活用し、十分な情報が収集されるまで継続する。
WorldMMは、従来の最先端の手法よりも平均8.4%の性能向上を達成し、5つの長いビデオ質問応答ベンチマークにおいて、既存のベースラインを著しく上回っている。
関連論文リスト
- GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。
これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。
実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文 参考訳(メタデータ) (2025-11-15T04:29:00Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。