論文の概要: APM: Evaluating Style Personalization in LLMs with Arbitrary Preference Mappings
- arxiv url: http://arxiv.org/abs/2605.21063v1
- Date: Wed, 20 May 2026 11:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.651547
- Title: APM: Evaluating Style Personalization in LLMs with Arbitrary Preference Mappings
- Title(参考訳): APM:任意選好写像を用いたLLMのスタイルパーソナライズ評価
- Authors: Philipp Spohn, Leander Girrbach, Zeynep Akata,
- Abstract要約: Arbitrary Preference Mapping ベンチマークを導入し,ユーザの属性を応答特性の嗜好にマッピングする。
$mathbfC$は意味的内容を持たないので、モデルはステレオタイプ的関連を利用できない。
Llama-3.1-8B と Qwen-3.5-27B で検索・最適化・ルーティング・パーソナライズ手法を適用した。
- 参考スコア(独自算出の注目度): 43.5967188676583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical LLM responses tend to follow a default style, even though users often have distinct preferences regarding tone, verbosity, and formality that they do not explicitly state in their prompts. Evaluating whether personalization methods can adapt to these implicit preferences is challenging, since users typically provide prompts rather than reference responses, style preferences are not factually verifiable, and reference-free LLM judges may conflate personalization with general response quality. To address these challenges, we introduce the Arbitrary Preference Mapping (APM) benchmark, which decouples user attributes (e.g. enthusiastic) from response principles (e.g. persuasive) via a hidden, randomized mapping $\mathbf{C}$ that maps user attributes to preferences about response traits. Because $\mathbf{C}$ carries no semantic content and is resampled across runs, models cannot exploit stereotypical associations and must infer preferences from conversation history. Using this unbiased evaluation methodology, we adapt retrieval-augmented, prompt-optimization, and routing personalization methods and evaluate them on Llama-3.1-8B and Qwen-3.5-27B. Our results show that routing is the most reliable approach, while RAG only improves with the stronger base LLM, and soft prompt optimization fails to improve significantly over a non-personalized baseline. Our extensive evaluation reveals that in this realistic setting, personalization remains challenging, but our adapted methods show promise.
- Abstract(参考訳): 典型的なLCM応答はデフォルトスタイルに従う傾向があるが、ユーザーはしばしば、そのプロンプトに明示的に記述していないトーン、冗長性、フォーマル性に関して明確な好みを持っている。
パーソナライズ手法がこれらの暗黙の選好に適応できるかどうかを評価することは困難であり、ユーザーは通常、参照応答よりもプロンプトを提供するが、スタイル選好は事実検証不可能であり、レファレンスフリーのLCM審査員はパーソナライズを一般的な応答品質と説明できる可能性がある。
これらの課題に対処するため、Arbitrary Preference Mapping (APM)ベンチマークを導入し、ユーザ属性を応答特性に関する好みにマッピングする、隠れたランダム化されたマッピング$\mathbf{C}$を介して、応答原理(例えば説得力のある)からユーザ属性を分離する。
$\mathbf{C}$はセマンティックな内容を持たず、実行中に再サンプリングされるため、モデルはステレオタイプ的な関連を活用できず、会話履歴から好みを推測しなければならない。
この非バイアス評価手法を用いて、検索強化、プロンプト最適化、ルーティングパーソナライズ手法を適用し、Llama-3.1-8BとQwen-3.5-27Bで評価する。
その結果,RAGはより強力なLLMでのみ改善され,ソフトプロンプト最適化は非個人化ベースラインよりも大幅に改善されないことがわかった。
この現実的な環境では、パーソナライゼーションは依然として難しいが、我々の適応した手法は有望であることを示している。
関連論文リスト
- Embedding by Elicitation: Dynamic Representations for Bayesian Optimization of System Prompts [22.060204303535187]
システムプロンプトは、現代のAIシステムにおいて中心的な制御メカニズムであり、会話、タスク、ユーザ集団間での振る舞いを形作る。
本研究では,この集合フィードバック設定を,個別の可変長テキストに対するサンプル制約付きブラックボックス最適化として検討する。
本稿では,ベイズ最適化フレームワークReElicitを紹介する。
論文 参考訳(メタデータ) (2026-05-18T20:28:17Z) - Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。
この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文 参考訳(メタデータ) (2026-03-04T15:42:43Z) - PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization [4.624026598342624]
検索したユーザプロファイルを明示的に推論するために,LLMをトレーニングする強化学習フレームワークであるPrLMを提案する。
PrLMは、注釈付き推論パスを必要とせずに、ユーザの応答から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験は、PrLMが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-08-10T13:37:26Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。