論文の概要: AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations
- arxiv url: http://arxiv.org/abs/2603.01966v1
- Date: Mon, 02 Mar 2026 15:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.934843
- Title: AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations
- Title(参考訳): AMemGym: 長距離会話におけるアシスタントのための対話型メモリベンチマーク
- Authors: Cheng Jiayang, Dongyu Ru, Lin Qiu, Yiyang Li, Xuezhi Cao, Yangqiu Song, Xunliang Cai,
- Abstract要約: AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。
我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
- 参考スコア(独自算出の注目度): 61.6579785305668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon interactions between users and LLM-based assistants necessitate effective memory management, yet current approaches face challenges in training and evaluation of memory. Existing memory benchmarks rely on static, off-policy data as context, limiting evaluation reliability and scalability. To address these gaps, we introduce AMemGym, an interactive environment enabling on-policy evaluation and optimization for memory-driven personalization. AMemGym employs structured data sampling to predefine user profiles, state-dependent questions, and state evolution trajectories, enabling cost-effective generation of high-quality, evaluation-aligned interactions. LLM-simulated users expose latent states through role-play while maintaining structured state consistency. Comprehensive metrics based on structured data guide both assessment and optimization of assistants. Extensive experiments reveal performance gaps in existing memory systems (e.g., RAG, long-context LLMs, and agentic memory) and corresponding reasons. AMemGym not only enables effective selection among competing approaches but also can potentially drive the self-evolution of memory management strategies. By bridging structured state evolution with free-form interactions, our framework provides a scalable, diagnostically rich environment for advancing memory capabilities in conversational agents.
- Abstract(参考訳): ユーザとLLMベースのアシスタント間の長時間水平相互作用は、効果的なメモリ管理を必要とするが、現在のアプローチでは、メモリのトレーニングと評価において課題に直面している。
既存のメモリベンチマークでは、静的で外部のデータをコンテキストとして依存しており、信頼性とスケーラビリティの評価が制限されている。
これらのギャップに対処するため、我々は、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境であるAMemGymを紹介した。
AMemGymは、ユーザープロファイル、状態依存の質問、状態進化の軌跡を事前に定義するために構造化データサンプリングを使用する。
LLMシミュレーションされたユーザは、構造化状態の一貫性を維持しながら、ロールプレイを通じて潜伏状態を公開する。
アシスタントの評価と最適化の両方を構造化データガイドに基づく総合的メトリクス。
大規模な実験により、既存のメモリシステム(例えば、RAG、Long-context LLM、エージェントメモリ)のパフォーマンスギャップとそれに対応する理由が明らかになった。
AMemGymは競合するアプローチの効果的な選択を可能にするだけでなく、メモリ管理戦略の自己進化を促進する可能性がある。
我々のフレームワークは、構造化状態の進化を自由形式の相互作用でブリッジすることで、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
関連論文リスト
- MetaMem: Evolving Meta-Memory for Knowledge Utilization through Self-Reflective Symbolic Optimization [57.17751568928966]
自己進化型メタメモリでメモリシステムを拡張するフレームワークであるMetaMemを提案する。
メタメモリ最適化の間、MetaMemは異なるタスク間で伝達可能な知識利用経験を反復的に蒸留する。
大規模な実験ではMetaMemの有効性が示され、これは強いベースラインを3.6%以上上回っている。
論文 参考訳(メタデータ) (2026-01-27T04:46:23Z) - The AI Hippocampus: How Far are We From Human Memory? [77.04745635827278]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。
明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。
エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (2026-01-14T03:24:08Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI [0.6840655769002751]
エージェントメモリは大規模言語モデル(LLM)のキーイネーブラーとして登場しつつある
我々は,LLMベースの会話システムを永続的,解釈可能,コンテキストに富んだメモリで拡張するモジュール型メモリフレームワークであるMemoriaを紹介する。
我々は、ステートレスLLMインタフェースとエージェントメモリシステムとのギャップを埋めることで、Memoriaがスケーラブルでパーソナライズされた対話型人工知能(AI)を実現する方法を実証する。
論文 参考訳(メタデータ) (2025-12-14T13:38:06Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents [26.647812147336538]
LLMをベースとしたエージェントのメモリ能力を評価するため,より包括的なデータセットとベンチマークを構築した。
本データセットは,現実記憶と反射記憶を異なるレベルに含み,様々な対話的シナリオとして参加と観察を提案する。
本データセットに基づいて,LLMをベースとしたエージェントのメモリ能力を評価するベンチマーク,MemBenchを提案する。
論文 参考訳(メタデータ) (2025-06-20T10:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。