論文の概要: EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents
- arxiv url: http://arxiv.org/abs/2601.16690v1
- Date: Fri, 23 Jan 2026 12:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.676027
- Title: EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents
- Title(参考訳): EMemBench: VLMエージェントのためのエピソードメモリのインタラクティブベンチマーク
- Authors: Xinze Li, Ziyue Zhu, Siyuan Liu, Yubo Ma, Yuhang Zang, Yixin Cao, Aixin Sun,
- Abstract要約: 本稿では,対話型ゲームによるエージェントの長期記憶評価のためのプログラムベンチマークEMemBenchを紹介する。
固定された質問セットを使う代わりに、EMemBenchは各エージェント自身の軌道から質問を生成する。
各テンプレートは、下層のゲーム信号から検証済みの真理を計算する。
- 参考スコア(独自算出の注目度): 52.567469286881426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EMemBench, a programmatic benchmark for evaluating long-term memory of agents through interactive games. Rather than using a fixed set of questions, EMemBench generates questions from each agent's own trajectory, covering both text and visual game environments. Each template computes verifiable ground truth from underlying game signals, with controlled answerability and balanced coverage over memory skills: single/multi-hop recall, induction, temporal, spatial, logical, and adversarial. We evaluate memory agents with strong LMs/VLMs as backbones, using in-context prompting as baselines. Across 15 text games and multiple visual seeds, results are far from saturated: induction and spatial reasoning are persistent bottlenecks, especially in visual setting. Persistent memory yields clear gains for open backbones on text games, but improvements are less consistent for VLM agents, suggesting that visually grounded episodic memory remains an open challenge. A human study further confirms the difficulty of EMemBench.
- Abstract(参考訳): 本稿では,対話型ゲームによるエージェントの長期記憶評価のためのプログラムベンチマークEMemBenchを紹介する。
固定された質問セットを使う代わりに、EMemBenchは各エージェント自身の軌道から質問を生成し、テキストとビジュアルゲーム環境の両方をカバーする。
各テンプレートは、制御された応答可能性と、シングル/マルチホップリコール、誘導、時間的、空間的、論理的、敵対的なメモリスキルに対するバランスの取れたカバレッジを持つ、基礎となるゲーム信号から検証可能な基底真理を計算する。
本稿では,強力なLM/VLMを持つメモリエージェントをベースラインとしてインコンテキストプロンプトを用いてバックボーンとして評価する。
15のテキストゲームと複数の視覚的シードにまたがって、結果は飽和していない:誘導と空間的推論は、特に視覚的設定において永続的なボトルネックである。
永続メモリは、テキストゲーム上でオープンバックボーンに明らかな利益をもたらすが、VLMエージェントでは改善が整っていないため、視覚的に接地されたエピソードメモリは依然としてオープンな課題である。
人間による研究は、EMemBenchの難しさをさらに裏付ける。
関連論文リスト
- RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction [21.670389104174536]
RealMem**は、現実的なプロジェクトのシナリオに基礎を置いた最初のベンチマークです。
RealMemは11つのシナリオにわたる2,000以上のクロスセッション対話で構成され、評価に自然なユーザクエリを利用する。
本稿では,メモリの動的進化をシミュレートするために,Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory synthesis and Schedule Managementを統合するパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-11T15:49:36Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs [28.807582003957005]
本稿では,長期記憶を必要とするタスクに対する大規模言語モデル(LLM)の能力を評価するためのフレームワークを提案する。
次に、100の会話と2000の検証済みの質問からなる新しいベンチマークであるBEAMを構築します。
モデル性能を向上させるために,LLMに3つの相補的メモリシステムを備えたLIGHT-aフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T07:29:52Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory [21.4675019810992]
概念レベルのメモリは再利用され、ソリューショントレースから抽出されたモジュラー抽象化が自然言語に格納される。
我々は、合成一般化と抽象的推論を強調するベンチマークARC-AGIを評価する。
抽象概念は最も一貫したメモリ設計であり、全てのテストされた推論計算スケールでベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-04T17:54:19Z) - MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation [15.64077949677469]
メモリ拡張対話システム(MADS)の有効性を評価するための新しいメモリ拡張対話ベンチマーク(MADail-Bench)を提案する。
このベンチマークは2つのタスクを別々に評価する: メモリ検索とメモリ認識は、パッシブとプロアクティブの両方のメモリリコールデータを組み込んだものである。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示している。
論文 参考訳(メタデータ) (2024-09-23T17:38:41Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。