論文の概要: AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment
- arxiv url: http://arxiv.org/abs/2603.26680v1
- Date: Mon, 09 Mar 2026 11:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.067577
- Title: AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment
- Title(参考訳): AlpsBench: LLMパーソナライズベンチマーク
- Authors: Jianfei Xiao, Xiang Yu, Chengbing Wang, Wuqiang Zheng, Xinyu Lin, Kaining Liu, Hongxun Ding, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan He,
- Abstract要約: AlpsBenchはWildChatからキュレートされた2500の長期的相互作用配列から構成され、人間によって検証された構造化記憶と組み合わせられる。
我々は、パーソナライズされた情報抽出、更新、検索、利用の4つの重要なタスクを定義し、メモリ管理のライフサイクル全体を評価するためのプロトコルを確立する。
i)モデルが潜在ユーザ特性を確実に抽出するのに苦労していること、(ii)メモリ更新が最強モデルでもパフォーマンス天井に直面すること、(iii)大きなイントラクタプールの存在下での検索精度が急激に低下すること、(iv)明示的なメモリ機構がリコールを改善する一方で、リコールは行わないこと、などである。
- 参考スコア(独自算出の注目度): 54.72137309071243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) evolve into lifelong AI assistants, LLM personalization has become a critical frontier. However, progress is currently bottlenecked by the absence of a gold-standard evaluation benchmark. Existing benchmarks either overlook personalized information management that is critical for personalization or rely heavily on synthetic dialogues, which exhibit an inherent distribution gap from real-world dialogue. To bridge this gap, we introduce AlpsBench, An LLM PerSonalization benchmark derived from real-world human-LLM dialogues. AlpsBench comprises 2,500 long-term interaction sequences curated from WildChat, paired with human-verified structured memories that encapsulate both explicit and implicit personalization signals. We define four pivotal tasks - personalized information extraction, updating, retrieval, and utilization - and establish protocols to evaluate the entire lifecycle of memory management. Our benchmarking of frontier LLMs and memory-centric systems reveals that: (i) models struggle to reliably extract latent user traits; (ii) memory updating faces a performance ceiling even in the strongest models; (iii) retrieval accuracy declines sharply in the presence of large distractor pools; and (iv) while explicit memory mechanisms improve recall, they do not inherently guarantee more preference-aligned or emotionally resonant responses. AlpsBench aims to provide a comprehensive framework.
- Abstract(参考訳): 大規模言語モデル(LLM)が生涯にわたるAIアシスタントへと進化するにつれ、LLMパーソナライゼーションは重要なフロンティアとなっている。
しかし、現在、ゴールドスタンダード評価ベンチマークの欠如により、進展がボトルネックになっている。
既存のベンチマークは、パーソナライズに不可欠なパーソナライズされた情報管理を見落としているか、あるいは実際の対話と固有の分散ギャップを示す合成対話に大きく依存している。
このギャップを埋めるために、現実世界の人間-LLM対話から派生したLLM PerSonalizationベンチマークAlpsBenchを紹介する。
AlpsBenchはWildChatからキュレートされた2500の長期的な相互作用配列で構成され、暗黙のパーソナライゼーション信号と暗黙のパーソナライゼーション信号の両方をカプセル化した人間の検証済みの記憶と組み合わせている。
我々は、パーソナライズされた情報抽出、更新、検索、利用の4つの重要なタスクを定義し、メモリ管理のライフサイクル全体を評価するためのプロトコルを確立する。
フロンティアLSMとメモリ中心システムのベンチマークでは、次のようなことが示されています。
(i)モデルは、潜伏したユーザ特性を確実に抽出するのに苦労する。
(II)最強モデルであっても、メモリ更新は性能天井に面する。
三 大きな散らしプールの存在下での検索精度の低下
(4) 明示的な記憶機構はリコールを改善するが、それらは本質的に、より好みに順応した、あるいは感情的に共鳴する応答を保証するものではない。
AlpsBenchは包括的なフレームワークを提供することを目指している。
関連論文リスト
- Memory-Driven Role-Playing: Evaluation and Enhancement of Persona Knowledge Utilization in LLMs [8.377003560888905]
メモリ駆動型ロールプレイングパラダイムを提案する。
スタニスラフスキーの「感情記憶」行動理論に触発されたこのパラダイムは、LLMの内部メモリストアとしてのペルソナの知識を基盤としている。
MREvalは4つのメモリ駆動能力を評価する詳細な評価フレームワークであり、MRPromptは構造化メモリ検索と応答生成を導くプロンプトアーキテクチャであり、MRBenchは細粒度診断のためのバイリンガルベンチマークである。
論文 参考訳(メタデータ) (2026-03-14T07:12:42Z) - AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。
我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文 参考訳(メタデータ) (2026-03-02T15:15:11Z) - How Does Personalized Memory Shape LLM Behavior? Benchmarking Rational Preference Utilization in Personalized Assistants [25.83552447206606]
大規模言語モデル(LLM)を利用したアシスタントは、最近、ユーザの好みを記録するメモリメカニズムを統合し、よりパーソナライズされ、ユーザに準拠した応答をもたらす。
RPEvalは、パーソナライズされた意図推論データセットとマルチグラニュラリティ評価プロトコルからなるベンチマークである。
RPEvalは、既存のLCMにおける不合理なパーソナライゼーションの広範な現象を明らかにし、エラーパターン解析を通じて、ユーザエクスペリエンスに悪影響を及ぼすことを示す。
本稿では、メモリ利用を実用的な推論プロセスとして扱い、パーソナライズされた情報の選択的統合を可能にするRP-Reasonerを紹介する。
論文 参考訳(メタデータ) (2026-01-23T10:19:48Z) - Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI [0.6840655769002751]
エージェントメモリは大規模言語モデル(LLM)のキーイネーブラーとして登場しつつある
我々は,LLMベースの会話システムを永続的,解釈可能,コンテキストに富んだメモリで拡張するモジュール型メモリフレームワークであるMemoriaを紹介する。
我々は、ステートレスLLMインタフェースとエージェントメモリシステムとのギャップを埋めることで、Memoriaがスケーラブルでパーソナライズされた対話型人工知能(AI)を実現する方法を実証する。
論文 参考訳(メタデータ) (2025-12-14T13:38:06Z) - Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。
サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文 参考訳(メタデータ) (2025-11-17T14:22:32Z) - RGMem: Renormalization Group-based Memory Evolution for Language Agent User Profile [8.224917568034572]
物理における古典的再正規化群(RG)のイデオロギーに着想を得た自己進化型メモリフレームワークを提案する。
このフレームワークは対話履歴を複数のスケールで整理することができる。
私たちの研究の中核的な革新は、情報圧縮と出現のマルチスケールプロセスとしてのメモリ進化をモデル化することにあります。
論文 参考訳(メタデータ) (2025-10-18T08:16:46Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。