論文の概要: ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support
- arxiv url: http://arxiv.org/abs/2602.01885v1
- Date: Mon, 02 Feb 2026 09:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.056873
- Title: ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support
- Title(参考訳): ES-MemEval:パーソナライズされた長期感情支援のための会話エージェントのベンチマーク
- Authors: Tiantian Chen, Jiaqi Lu, Ying Shen, Lin Zhang,
- Abstract要約: 大きな言語モデル (LLM) は会話エージェントとして大きな可能性を示している。
しかし、その有効性は、堅牢な長期記憶の欠陥によって制限されている。
ES-MemEvalは5つのコアメモリ機能を体系的に評価するベンチマークである。
EvoEmoは、パーソナライズされた長期的な感情的サポートのためのデータセットである。
- 参考スコア(独自算出の注目度): 11.480342895892404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown strong potential as conversational agents. Yet, their effectiveness remains limited by deficiencies in robust long-term memory, particularly in complex, long-term web-based services such as online emotional support. However, existing long-term dialogue benchmarks primarily focus on static and explicit fact retrieval, failing to evaluate agents in critical scenarios where user information is dispersed, implicit, and continuously evolving. To address this gap, we introduce ES-MemEval, a comprehensive benchmark that systematically evaluates five core memory capabilities: information extraction, temporal reasoning, conflict detection, abstention, and user modeling, in long-term emotional support settings, covering question answering, summarization, and dialogue generation tasks. To support the benchmark, we also propose EvoEmo, a multi-session dataset for personalized long-term emotional support that captures fragmented, implicit user disclosures and evolving user states. Extensive experiments on open-source long-context, commercial, and retrieval-augmented (RAG) LLMs show that explicit long-term memory is essential for reducing hallucinations and enabling effective personalization. At the same time, RAG improves factual consistency but struggles with temporal dynamics and evolving user states. These findings highlight both the potential and limitations of current paradigms and motivate more robust integration of memory and retrieval for long-term personalized dialogue systems.
- Abstract(参考訳): 大きな言語モデル (LLM) は会話エージェントとして大きな可能性を示している。
しかし、その効果は、堅牢な長期記憶の欠陥、特にオンライン感情サポートのような複雑な長期ウェブベースのサービスによって制限されている。
しかし、既存の長期対話ベンチマークは主に静的かつ明示的な事実検索に重点を置いており、ユーザ情報が分散され、暗黙的であり、継続的な進化を続ける重要なシナリオにおいてエージェントの評価に失敗している。
このギャップに対処するため、ES-MemEvalは、情報抽出、時間的推論、コンフリクト検出、禁忌、ユーザモデリングの5つのコアメモリ能力を体系的に評価する包括的なベンチマークであり、長期的な感情的サポート設定、質問応答、要約、対話生成タスクを網羅する。
このベンチマークをサポートするために、EvoEmoも提案する。EvoEmoはパーソナライズされた長期的感情的サポートのためのマルチセッションデータセットで、断片化され、暗黙的なユーザ開示とユーザ状態の進化をキャプチャする。
オープンソース長期コンテキスト、商用、検索強化(RAG)LLMの広範な実験は、幻覚を減らし、効果的なパーソナライズを可能にするために、明示的な長期記憶が不可欠であることを示している。
同時に、RAGは事実整合性を改善するが、時間的ダイナミクスとユーザ状態の進化に苦労する。
これらの知見は、現在のパラダイムの可能性と限界の両方を強調し、長期パーソナライズされた対話システムにおけるメモリと検索のより堅牢な統合を動機付けている。
関連論文リスト
- Evaluating Long-Context Reasoning in LLM-Based WebAgents [22.264781808930948]
本稿では,WebAgentsの長期コンテキスト推論能力を評価するためのベンチマークを紹介する。
コンテクストの長さが増加するにつれて劇的なパフォーマンス劣化が観察され、成功率はベースライン条件では40-50%から長期シナリオでは10%以下に低下する。
我々の詳細なエラー分析では、エージェントがループで立ち往生し、元のタスクの目的の追跡が失われることが主な原因であることが判明した。
論文 参考訳(メタデータ) (2025-12-03T22:53:10Z) - RGMem: Renormalization Group-based Memory Evolution for Language Agent User Profile [8.224917568034572]
物理における古典的再正規化群(RG)のイデオロギーに着想を得た自己進化型メモリフレームワークを提案する。
このフレームワークは対話履歴を複数のスケールで整理することができる。
私たちの研究の中核的な革新は、情報圧縮と出現のマルチスケールプロセスとしてのメモリ進化をモデル化することにあります。
論文 参考訳(メタデータ) (2025-10-18T08:16:46Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。