論文の概要: RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
- arxiv url: http://arxiv.org/abs/2601.06966v1
- Date: Sun, 11 Jan 2026 15:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.091922
- Title: RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
- Title(参考訳): RealMem: リアルタイムメモリ駆動インタラクションにおけるLLMのベンチマーク
- Authors: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen,
- Abstract要約: RealMem**は、現実的なプロジェクトのシナリオに基礎を置いた最初のベンチマークです。
RealMemは11つのシナリオにわたる2,000以上のクロスセッション対話で構成され、評価に自然なユーザクエリを利用する。
本稿では,メモリの動的進化をシミュレートするために,Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory synthesis and Schedule Managementを統合するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 21.670389104174536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals. To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation. We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects. Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
- Abstract(参考訳): 大規模言語モデル(LLM)が静的対話インタフェースから自律的汎用エージェントへと進化するにつれて、有効メモリは長期的な一貫性を確保するために最重要となる。
しかし、既存のベンチマークは、主にカジュアルな会話やタスク指向の対話に焦点を当てており、エージェントが進化する目標を追跡しなければならない**"長期的なプロジェクト指向"*のインタラクションをキャプチャできない。
このギャップを埋めるために、現実的なプロジェクトシナリオに基礎を置いた最初のベンチマークである**RealMem**を紹介します。
RealMemは11つのシナリオにわたる2,000以上のクロスセッション対話で構成され、評価に自然なユーザクエリを利用する。
本稿では,メモリの動的進化をシミュレートするために,Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Managementを統合した合成パイプラインを提案する。
実験により、現在のメモリシステムは、実際のプロジェクト固有の長期プロジェクト状態と動的コンテキスト依存の管理において、重大な課題に直面していることが明らかになった。
私たちのコードとデータセットは[https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench]で利用可能です。
関連論文リスト
- HiMem: Hierarchical Long-Term Memory for LLM Long-Horizon Agents [3.9396865837159822]
HiMemは、長距離対話のための階層的長期記憶フレームワークである。
メモリ構築、検索、持続的なインタラクション中の動的更新をサポートする。
その結果、HiMemは、精度、一貫性、長期的な推論において、代表的ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-10T01:26:01Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents [76.76004970226485]
長期記憶はマルチモーダル大言語モデル(MLLM)エージェントにとって重要な機能である。
Mem-GalleryはMLLMエージェントのマルチモーダル長期会話メモリ評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2026-01-07T02:03:13Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - Meta-Memory: Retrieving and Integrating Semantic-Spatial Memories for Robot Spatial Reasoning [5.740131013400576]
本稿では,環境の高密度メモリ表現を構築する,大規模言語モデル(LLM)駆動エージェントであるMeta-Memoryを提案する。
メタメモリの重要な革新は、意味論と空間的モダリティに関する共同推論を通じて関連する記憶を検索し、統合する能力にある。
実験の結果、Meta-MemoryはSpaceLocQAとパブリックなNaVQAベンチマークの両方で最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-09-25T05:22:52Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History [13.389395397698035]
メモリ・アウェア・プロアクティブ・ダイアログ(MapDia)という新しいタスクを導入する。
そのタスクにより、自動データ構築法を提案し、中国初のメモリ対応プロアクティブデータセット(ChMapData)を作成する。
さらに、トピック要約、トピック検索、アクティブなトピックシフト検出と生成の3つのモジュールを特徴とする、検索用拡張生成(RAG)に基づくジョイントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-07T05:19:17Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。