Fugu-MT 論文翻訳(概要): BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

論文の概要: BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

arxiv url: http://arxiv.org/abs/2603.16557v1
Date: Tue, 17 Mar 2026 14:19:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.323566
Title: BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs
Title（参考訳）: BenchPreS: パーソナライズされたパーソナライズされたLLMの選択性ベンチマーク
Authors: Sangyeon Yoon, Sunkyoung Kim, Hyesoo Hong, Wonje Jeung, Yongil Kim, Wooseok Seo, Heuiyeen Yeen, Albert No,
Abstract要約: 本稿では,メモリベースのユーザ嗜好が,コミュニケーションコンテキスト全体にわたって適切に適用されているか,あるいは抑制されているかを評価するBenchPreSを紹介する。より強い嗜好の順守を持つモデルは、アプリケーションの過剰使用率が高く、推論能力やプロンプトベースの防御がこの問題を完全に解決しない。
参考スコア（独自算出の注目度）: 9.265943750810367
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) increasingly store user preferences in persistent memory to support personalization across interactions. However, in third-party communication settings governed by social and institutional norms, some user preferences may be inappropriate to apply. We introduce BenchPreS, which evaluates whether memory-based user preferences are appropriately applied or suppressed across communication contexts. Using two complementary metrics, Misapplication Rate (MR) and Appropriate Application Rate (AAR), we find even frontier LLMs struggle to apply preferences in a context-sensitive manner. Models with stronger preference adherence exhibit higher rates of over-application, and neither reasoning capability nor prompt-based defenses fully resolve this issue. These results suggest current LLMs treat personalized preferences as globally enforceable rules rather than as context-dependent normative signals.
Abstract（参考訳）: 大きな言語モデル(LLM)は、インタラクション間のパーソナライゼーションをサポートするために、ユーザの好みを永続メモリに格納するようになっている。しかし、社会的および制度的な規範によって統治されるサードパーティのコミュニケーション設定では、一部のユーザー嗜好は適用に不適当である可能性がある。本稿では,メモリベースのユーザ嗜好が,コミュニケーションコンテキスト全体にわたって適切に適用されているか,あるいは抑制されているかを評価するBenchPreSを紹介する。相補的な2つの指標、MR(Misapplication Rate)とAAR(Appropriate Application Rate)を使用して、フロンティアのLLMでさえ、文脈に敏感な方法で好みを適用するのに苦労しています。より強い嗜好の順守を持つモデルは、アプリケーションの過剰使用率が高く、推論能力やプロンプトベースの防御がこの問題を完全に解決しない。これらの結果から、現在のLLMでは、コンテキスト依存の規範信号ではなく、パーソナライズされた嗜好をグローバルに強制可能なルールとして扱うことが示唆された。

関連論文リスト

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文参考訳（メタデータ） (2026-03-04T15:42:43Z)
Towards Effective Model Editing for LLM Personalization [36.236438676571034]
我々はパーソナライズをモデル編集タスクとして概念化し、パーソナライズ編集を導入する。このフレームワークは、クラスタ化された選好表現によってガイドされる局所的な編集を適用する。微調整よりも高い編集精度と計算効率を実現する。
論文参考訳（メタデータ） (2025-12-15T18:58:15Z)
POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。 4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文参考訳（メタデータ） (2025-10-17T23:07:57Z)
Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文参考訳（メタデータ） (2025-09-30T18:55:28Z)
CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions [39.554239954719876]
CUPIDは、756人の人為的なインタラクションセッション履歴のベンチマークである。オープンでプロプライエタリな10のLarge Language Model(LLM)を評価する。我々の研究は、より文脈的にパーソナライズされたインタラクションのためにLLM機能を進化させる必要性を強調します。
論文参考訳（メタデータ） (2025-08-03T09:04:48Z)
Reasoning over User Preferences: Knowledge Graph-Augmented LLMs for Explainable Conversational Recommendations [58.61021630938566]
対話型レコメンデーションシステム(CRS)は,対話型対話を通じてユーザの好みを捉え,パーソナライズされたレコメンデーションを提供することを目的としている。現在のCRSは、しばしば知識グラフ(KG)や言語モデルを利用して、ユーザの好みを潜在ベクトルとして抽出し、表現し、説明可能性を制限する。本稿では,LCMとKGを相乗化してユーザの好みを推論し,既存のCRSの性能と説明可能性を高めるプラグイン・アンド・プレイ・フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-16T11:47:21Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Vague Preference Policy Learning for Conversational Recommendation [48.868921530958666]
会話レコメンデーションシステムは通常、ユーザが明確な好みを持っていると仮定し、潜在的に過度なフィルタリングにつながる。本稿では,Vag Preference Multi-round Conversational Recommendation (VPMCR) シナリオを紹介する。我々の研究は、ユーザの内在する曖昧さと相対的な意思決定プロセスを調整し、現実の応用性を向上させることでCRSを前進させます。
論文参考訳（メタデータ） (2023-06-07T14:57:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。