論文の概要: WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction
- arxiv url: http://arxiv.org/abs/2605.29341v2
- Date: Mon, 01 Jun 2026 07:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.729882
- Title: WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction
- Title(参考訳): WorldMemArena: アクション-ワールドインタラクションによるマルチモーダルエージェントメモリの評価
- Authors: Chengzhi Liu, Yuzhe Yang, Sophia Xiao Pu, Yepeng Liu, Lin Long, Yichen Guo, Nuo Chen, Zhaotian Weng, Elena Kochkina, Simerjot Kaur, Charese Smiley, Xiaomo Liu, James Zou, Sheng Liu, Yuheng Bu, Songyou Peng, Xin Eric Wang,
- Abstract要約: マルチモーダルな言語モデルは、長距離エージェントとしてますます多くデプロイされている。
既存のベンチマークは、静的対話上のリコールを測定し、メモリを1つのタスクの精度に分解し、キャプションに対する視覚的な観察を減らす。
マルチモーダルエージェントメモリを,観測可能な4段階ライフサイクルを持つアクションワールドインタラクションループとして定式化する。
- 参考スコア(独自算出の注目度): 72.1620416874118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、記憶がリコール以上のことをしなければならないロングホライゾンエージェントとして、ますます多くデプロイされている。
既存のベンチマークは、静的ダイアログ上のリコールを測定し、メモリを1つのエンドツーエンドの精度に分解し、視覚的な観察をキャプションに還元し、障害を書き込み、メンテナンス、検索、使用にローカライズすることができません。
エージェントハーネスの台頭は、手設計のパイプラインと自己管理の代替品を比較するための原則的な方法がないため、自分自身のメモリの作者によるギャップを鋭くします。
これらのギャップを埋めるために、我々はアクション・ワールド・インタラクション・ループとして、観測可能な4段階のライフサイクルとともに、マルチモーダル・エージェント・メモリを定式化し、WorldMemArena: 400のマルチセッション・マルチモーダル・タスクをライフロング・エボリューション(個人とタスク状態の進化)とエージェント・エクセプション(実際の観察、行動、フィードバックからの記憶)にまたがって、ゴールドメモリポイント、アップデート、イントラクタ、エビデンス・チェーンをアノテートし、ステージレベルの診断を行う。
これにより、長いコンテキスト、手動設計(RAGと外部メモリシステム)、およびハーネスベースのメモリエージェントの最初のヘッド・ツー・ヘッド比較が可能になる。
その結果,(1) メモリの書き込みやストレージの高速化が保証されていないこと,(2) マルチモーダルメモリは依然として視覚的証拠の活用に苦慮していること,(3) ドメイン間で不安定であり,現実的なエージェント軌道上での劣化,(4) ハーネスメモリの柔軟性は向上するが,コストと信頼性は低いこと,などが判明した。
関連論文リスト
- MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - MemGym: a Long-Horizon Memory Environment for LLM Agents [69.79226770543049]
本稿では,エージェントメモリのベンチマークであるMemGymを紹介する。
MemGymは、メモリパフォーマンスを推論、検索、ツール使用能力から切り離すメモリアイソレーションスコアを報告している。
MEMGYM-CODEQAとMEMGYM-DRの合成パイプラインは、長さ制御可能であり、各ステージでアブレーションを検証可能であり、下流のシナリオと密に整合している。
論文 参考訳(メタデータ) (2026-05-20T07:25:33Z) - MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios [33.8882826707344]
MemGroundは、リッチでゲーミフィケーションされたインタラクティブシナリオを基盤とした、厳格な長期メモリベンチマークである。
メモリ利用と行動軌跡の両方を包括的に定量化するために,多次元計量スイートを提案する。
論文 参考訳(メタデータ) (2026-03-23T02:57:39Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers [0.42061757959666934]
大きな言語モデル(LLM)エージェントは、単一のコンテキストウィンドウが小さすぎて何が起きているのかをキャプチャできないような環境で、ますます運用される。
メモリはステートレステキストジェネレータを真に適応的なエージェントに変える。
この調査は、メモリがどのように設計され、実装され、現代のLCMベースのエージェントで評価されるかという構造化された説明を提供する。
論文 参考訳(メタデータ) (2026-03-08T15:08:01Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - REMem: Reasoning with Episodic Memory in Language Agent [32.63834745610879]
エピソードメモリを用いた構築と推論のためのフレームワークであるREMemについて述べる。
我々はREMemがMem0やHippoRAG 2のような時空間記憶システムよりも大幅に優れていることを示す。
REMemはまた、答えられない質問に対してより堅牢な拒絶行動を示す。
論文 参考訳(メタデータ) (2026-02-13T23:54:55Z) - MemVerse: Multimodal Memory for Lifelong Learning Agents [35.218549149012844]
我々は,モデルに依存しないプラグアンドプレイメモリフレームワークであるMemVerseを紹介した。
MemVerseは階層的検索ベースのメモリで高速パラメトリックリコールを行う。
スケーラブルで適応的なマルチモーダルインテリジェンスを実現する。
論文 参考訳(メタデータ) (2025-12-03T10:06:14Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。