論文の概要: Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory
- arxiv url: http://arxiv.org/abs/2605.31086v2
- Date: Mon, 01 Jun 2026 09:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 14:56:41.449501
- Title: Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory
- Title(参考訳): 静的対話を超えて: リアルタイム、不均一、長期記憶のベンチマーク
- Authors: Han Zhang, Zihao Tang, Xin Yu, Xiao Liu, Yeyun Gong, Haizhen Huang, Yan Lu, Weiwei Deng, Feng Sun, Qi Zhang, Hanfang Yang,
- Abstract要約: 動的時間的進化と長期コヒーレンスを示す多様な相互作用シナリオにまたがる現実的な対話を導入する。
その結果得られたベンチマークは、7つの調査タイプにまたがる挑戦的な質問と回答のペアを含んでいる。
現在研究されている27の重要な記憶特性のうち、少なくとも1つを同定する。
- 参考スコア(独自算出の注目度): 54.947805187562274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In existing memory benchmarks for Large Language Models (LLMs), the evaluated dialogue sessions often lack long-term semantic consistency, and the underlying personas tend to be flat and static. Furthermore, in real-world scenarios, interactions between users and assistants involve more diverse, heterogeneous data streams, such as documents and emails. These shortcomings significantly limit the realism and effectiveness of current evaluations. To address these limitations, we introduce RHELM (Realistic, Heterogeneous, and Evolving Long-term Memory). Driven by meticulously crafted user profiles and a novel LOOP (pLan-rOllout-evOlve-Prune) module, we construct realistic dialogues across diverse interaction scenarios that exhibit dynamic temporal evolution and long-term coherence. Crucially, these dialogues are deeply integrated with heterogeneous external sources synchronized with the user's temporal event trajectory. The resulting benchmark encompasses challenging question-answer pairs spanning seven inquiry types, with each question mapping to at least one of 27 critical memory characteristics that we identify as essential yet underexplored in current research. Comprehensive experiments across full-context models, retrieval-augmented generation (RAG) methods, and representative memory frameworks reveal that contemporary approaches still expose critical weaknesses in complex, real-world settings, particularly in resolving multi-source aggregation and real-world contextual reasoning.
- Abstract(参考訳): LLM(Large Language Models)の既存のメモリベンチマークでは、評価された対話セッションは長期的なセマンティックな一貫性が欠如しており、基礎となるペルソナはフラットで静的であることが多い。
さらに、現実のシナリオでは、ユーザとアシスタント間のインタラクションには、ドキュメントやEメールなど、より多様で異質なデータストリームが含まれる。
これらの欠点は、現在の評価の現実性と有効性を著しく制限する。
これらの制約に対処するため、RHELM(Realistic, Heterogeneous, Evolving Long-term Memory)を導入します。
ユーザプロファイルを巧みに作成し,新しい LOOP (pLan-rOllout-evOlve-Prune) モジュールにより,動的時間的進化と長期コヒーレンスを示す多様な相互作用シナリオ間の現実的な対話を構築する。
重要な点として、これらの対話は、ユーザの時間的事象軌跡と同期した異種外部ソースと深く統合されている。
結果として得られたベンチマークは、7つの質問タイプにまたがる挑戦的な質問と回答のペアを含んでおり、各質問は、我々が現在調査されている重要で過小評価されていない27のメモリ特性のうちの少なくとも1つにマッピングされる。
完全コンテキストモデル、検索拡張生成(RAG)メソッド、および代表記憶フレームワークにわたる包括的な実験により、現代的なアプローチは、複雑な実世界の設定において、特にマルチソースアグリゲーションと実世界のコンテキスト推論の解決において、依然として重大な弱点を露呈していることが明らかとなった。
関連論文リスト
- MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems [69.06764269022925]
本研究では,現在の記憶増強剤が現実的,干渉重大,長期的設定において果たす役割について検討する。
MINTEvalは、頻繁に更新される情報を備えた、長く高度に相互接続されたコンテキストを特徴とするベンチマークである。
MINTEvalは128.8kのトークンを平均で1インスタンスあたり1.8Mのトークンに拡張し、15.6kの質問応答ペアを持つ。
論文 参考訳(メタデータ) (2026-05-18T15:43:35Z) - PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文 参考訳(メタデータ) (2026-03-24T14:04:11Z) - ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support [11.480342895892404]
大きな言語モデル (LLM) は会話エージェントとして大きな可能性を示している。
しかし、その有効性は、堅牢な長期記憶の欠陥によって制限されている。
ES-MemEvalは5つのコアメモリ機能を体系的に評価するベンチマークである。
EvoEmoは、パーソナライズされた長期的な感情的サポートのためのデータセットである。
論文 参考訳(メタデータ) (2026-02-02T09:58:26Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - RGMem: Renormalization Group-based Memory Evolution for Language Agent User Profile [8.224917568034572]
物理における古典的再正規化群(RG)のイデオロギーに着想を得た自己進化型メモリフレームワークを提案する。
このフレームワークは対話履歴を複数のスケールで整理することができる。
私たちの研究の中核的な革新は、情報圧縮と出現のマルチスケールプロセスとしてのメモリ進化をモデル化することにあります。
論文 参考訳(メタデータ) (2025-10-18T08:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。