論文の概要: M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
- arxiv url: http://arxiv.org/abs/2606.05008v1
- Date: Wed, 03 Jun 2026 15:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.857924
- Title: M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
- Title(参考訳): M$^3$Eval:認知型ビデオタスクによるマルチモーダルメモリ評価
- Authors: Jie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong,
- Abstract要約: M$3$Evalは、マルチモーダルモデルで異なるメモリ次元を探索するための最初の包括的な評価フレームワークとベンチマークである。
代表的マルチモーダルモデルにまたがって実験を行い、一貫した弱点と独特な振る舞いを明らかにする。
本研究は、メモリを基礎的かつ未探索の能力として強調し、マルチモーダルモデルにおいてより効率的なメモリ機構を設計するための洞察を提供する。
- 参考スコア(独自算出の注目度): 19.25978075323521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.
- Abstract(参考訳): マルチモーダルモデルが長めのビデオ理解へと進むにつれ、メモリは重要な能力として出現する。
ビデオデータセットとベンチマークの開発に多大な努力を払ってはいるが、既存の研究は主に知覚と推論に焦点を当てており、メモリを体系的に評価していない。
このギャップに対処するため、我々はM$^3$Evalを導入し、マルチモーダルモデルで異なるメモリ次元を探索するための最初の総合的な評価フレームワークとベンチマークを行った。
認知心理学に根ざした我々のデザインは、記憶の重要な側面を分離する、注意深く構築されたタスクを特徴付ける。
M$3$Evalを活用することで、代表的マルチモーダルモデルにまたがる広範な実験を行い、一貫した弱点と特異な振る舞いを明らかにする。
並列ビデオストリームの処理において,不整合表現の維持に苦慮し,人間の記憶とはかなり異なる干渉パターンを示し,時空間領域よりも空間領域においてより確実な基底記憶源を示し,限られたシンボリックメモリを示す。
総合的に、我々のベンチマークは、将来の研究に貴重なリソースを提供する一方、我々の発見は、メモリを基礎的だが未探索の能力として強調し、マルチモーダルモデルにおいてより効率的なメモリ機構を設計するための洞察を提供する。
私たちのコードとデータセットはhttps://pku-value-lab.github.io/m3eval-homepage.orgで公開されています。
関連論文リスト
- RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey [211.01908189012184]
今年、何百もの論文が公開されたメモリは、ユーティリティギャップを埋めるための重要なソリューションとして現れます。
ファンデーションエージェントのメモリを3次元に統一したビューを提供する。
次に、異なるエージェントトポロジの下でメモリがどのようにインスタンス化され、操作されるかを分析する。
論文 参考訳(メタデータ) (2026-01-14T07:38:38Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。
我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。
実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-12-15T17:22:34Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - MemoryKT: An Integrative Memory-and-Forgetting Method for Knowledge Tracing [7.096160553754792]
学生の記憶状態をシミュレーションすることは、知識追跡モデルの性能と解釈可能性の両方を高めるための有望なアプローチである。
メモリは、エンコーディング、ストレージ、検索の3つの基本的なプロセスから構成される。
本稿では,新しい時間変動オートエンコーダに基づく知識追跡モデルであるMemoryKTを提案する。
論文 参考訳(メタデータ) (2025-08-11T15:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。