論文の概要: PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments
- arxiv url: http://arxiv.org/abs/2603.23231v1
- Date: Tue, 24 Mar 2026 14:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.520189
- Title: PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments
- Title(参考訳): PERMA: イベント駆動推論とリアルタスク環境によるパーソナライズドメモリエージェントのベンチマーク
- Authors: Shuochen Liu, Junyi Zhu, Long Shu, Junda Lin, Yuhao Chen, Haotian Zhang, Chao Zhang, Derong Xu, Jia Li, Bo Tang, Zhiyu Li, Feiyu Xiong, Enhong Chen, Tong Xu,
- Abstract要約: 静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
- 参考スコア(独自算出の注目度): 72.02445514666428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowering large language models with long-term memory is crucial for building agents that adapt to users' evolving needs. However, prior evaluations typically interleave preference-related dialogues with irrelevant conversations, reducing the task to needle-in-a-haystack retrieval while ignoring relationships between events that drive the evolution of user preferences. Such settings overlook a fundamental characteristic of real-world personalization: preferences emerge gradually and accumulate across interactions within noisy contexts. To bridge this gap, we introduce PERMA, a benchmark designed to evaluate persona consistency over time beyond static preference recall. Additionally, we incorporate (1) text variability and (2) linguistic alignment to simulate erratic user inputs and individual idiolects in real-world data. PERMA consists of temporally ordered interaction events spanning multiple sessions and domains, with preference-related queries inserted over time. We design both multiple-choice and interactive tasks to probe the model's understanding of persona along the interaction timeline. Experiments demonstrate that by linking related interactions, advanced memory systems can extract more precise preferences and reduce token consumption, outperforming traditional semantic retrieval of raw dialogues. Nevertheless, they still struggle to maintain a coherent persona across temporal depth and cross-domain interference, highlighting the need for more robust personalized memory management in agents. Our code and data are open-sourced at https://github.com/PolarisLiu1/PERMA.
- Abstract(参考訳): 長期記憶で大きな言語モデルを強化することは、ユーザの進化するニーズに適応するエージェントを構築するために不可欠である。
しかし、事前評価では、通常、関係のない会話と嗜好関係の対話をインターリーブし、ユーザの嗜好の進化を促すイベント間の関係を無視しながら、ヘイスタック検索へのタスクを短縮する。
このような設定は、現実のパーソナライゼーションの基本的な特徴を見落としている。
このギャップを埋めるため、静的なリコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを導入する。
さらに,(1) テキストの多様性と(2) 言語的アライメントを組み込んで,実世界のデータにおける不規則なユーザ入力と個々のイディオレクトをシミュレートする。
PERMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
我々は、対話タイムラインに沿って、モデルのペルソナ理解を探索するために、複数選択タスクと対話タスクの両方を設計する。
実験により、関連する相互作用をリンクすることで、高度なメモリシステムはより正確な嗜好を抽出し、トークン消費を減らすことができ、生の対話の伝統的な意味的検索よりも優れていることが示された。
それでも彼らは、時間的深さとドメイン間の干渉を越えて一貫性のあるペルソナを維持するのに苦慮しており、エージェントのより堅牢なパーソナライズされたメモリ管理の必要性を強調している。
私たちのコードとデータはhttps://github.com/PolarisLiu1/PERMA.comでオープンソース化されています。
関連論文リスト
- AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - Learning Personalized Agents from Human Feedback [36.47803872623135]
連続的なパーソナライズのための枠組みであるPAHF(Personalized Agents from Human Feedback)を紹介する。
PAHFは、ユーザ毎の明示的なメモリを使用して、ライブインタラクションからオンラインで学習する。
ベンチマークは、エージェントが最初の好みをスクラッチから学習し、その後ペルソナシフトに適応する能力を定量化する。
論文 参考訳(メタデータ) (2026-02-18T04:18:47Z) - OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents [55.27061195244624]
オーバーパーソナライゼーションを3つのタイプに分類する。
エージェントは不要な場合でも、ユーザメモリを取得およびオーバーアタッチする傾向があります。
我々の研究は、メモリ拡張対話システムにおいて、より制御可能で適切なパーソナライズに向けた最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2026-01-20T08:27:13Z) - Towards Proactive Personalization through Profile Customization for Individual Users in Dialogues [28.522406727886395]
PersonalAgentは、ユーザの好みを継続的に推測し、適応するように設計された、生涯にわたるエージェントである。
実験により、PersonalAgentは強力なプロンプトベースおよびポリシー最適化ベースラインよりも優れたパフォーマンスを達成できることが示された。
本研究は、より包括的で適応的な会話エージェントを開発するために、生涯のパーソナライズの重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-12-17T10:47:06Z) - Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。
サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文 参考訳(メタデータ) (2025-11-17T14:22:32Z) - RGMem: Renormalization Group-based Memory Evolution for Language Agent User Profile [8.224917568034572]
物理における古典的再正規化群(RG)のイデオロギーに着想を得た自己進化型メモリフレームワークを提案する。
このフレームワークは対話履歴を複数のスケールで整理することができる。
私たちの研究の中核的な革新は、情報圧縮と出現のマルチスケールプロセスとしてのメモリ進化をモデル化することにあります。
論文 参考訳(メタデータ) (2025-10-18T08:16:46Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。