論文の概要: Inference-Time Personalized Alignment with a Few User Preference Queries
- arxiv url: http://arxiv.org/abs/2511.02966v1
- Date: Tue, 04 Nov 2025 20:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.234797
- Title: Inference-Time Personalized Alignment with a Few User Preference Queries
- Title(参考訳): ユーザ設定クエリの少ない推論時間パーソナライズアライメント
- Authors: Victor-Alexandru Pădurean, Parameswaran Kamalaruban, Nachiket Kotalwar, Alkis Gotovos, Adish Singla,
- Abstract要約: 生成モデルの応答とユーザの好みを一致させる問題について検討する。
提案するUserAlignは,複数クエリによるユーザの好みを,ペアの応答比較として提案する。
- 参考スコア(独自算出の注目度): 24.28598841525897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of aligning a generative model's response with a user's preferences. Recent works have proposed several different formulations for personalized alignment; however, they either require a large amount of user preference queries or require that the preference be explicitly specified as a text input. In this paper, we propose a novel inference-time personalized alignment method, UserAlign, that elicits the user's preferences with a few queries as pairwise response comparisons. In particular, UserAlign builds on the theoretical framework of best-arm identification in logistic bandits and selects a personalized response from a fixed pool of the model's generated responses. The key idea is to consider the user's feedback consistent and noise-free, and incorporate it into the theoretical framework to identify the best response quickly. Experimental results across several tasks, involving personalized text and image generation, showcase the effectiveness of UserAlign in achieving personalized alignment.
- Abstract(参考訳): 生成モデルの応答とユーザの好みを一致させる問題について検討する。
最近の研究では、パーソナライズされたアライメントのためのいくつかの異なる定式化が提案されているが、それらは大量のユーザ好みクエリを必要とするか、あるいはテキスト入力として明示的に指定する必要がある。
本稿では,一対の応答比較として数クエリでユーザの好みを抽出する,新しい推論時パーソナライズアライメント手法であるUserAlignを提案する。
特にUserAlignは、ロジスティックバンディットにおけるベストアーム識別の理論的なフレームワークを構築し、モデルの生成されたレスポンスの固定プールからパーソナライズされたレスポンスを選択する。
キーとなる考え方は、ユーザのフィードバックの一貫性とノイズフリーを考慮し、それを理論的なフレームワークに組み込んで、最適な応答を素早く特定することである。
パーソナライズされたテキストと画像生成を含む複数のタスクにわたる実験結果は、パーソナライズされたアライメントを達成する上でのUserAlignの有効性を示す。
関連論文リスト
- PreferThinker: Reasoning-based Personalized Image Preference Assessment [83.66114370585976]
推論に基づくパーソナライズされた画像嗜好評価フレームワークを提案する。
まず、ユーザーの好みプロファイルを参照画像から予測する。
次に、解釈可能で多次元のスコアと候補画像の評価を提供する。
論文 参考訳(メタデータ) (2025-11-01T16:19:51Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Comparison-based Active Preference Learning for Multi-dimensional Personalization [7.349038301460469]
大きな言語モデル(LLM)は目覚ましい成功を収めていますが、それらを人間の好みに合わせることは、依然として重要な課題です。
近年,多次元のパーソナライゼーションが研究されている。これはモデルが明示的な嗜好に合った応答を生成できるようにすることを目的としている。
対話的に収集された比較フィードバックから暗黙的なユーザの嗜好を捉えるために,能動多次元選好学習(AMPLe)を提案する。
論文 参考訳(メタデータ) (2024-11-01T11:49:33Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Everyone's Preference Changes Differently: Weighted Multi-Interest
Retrieval Model [18.109035867113217]
MIPモデル(Multi-Interest Preference)は、ユーザのシーケンシャルエンゲージメントをより効果的に利用することで、ユーザにとってマルチエンゲージメントを生み出すアプローチである。
本手法の有効性を実証するため,様々な産業規模のデータセットを用いて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-07-14T04:29:54Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - The Stereotyping Problem in Collaboratively Filtered Recommender Systems [77.56225819389773]
行列分解に基づく協調フィルタリングアルゴリズムは,ある種のステレオタイピングを誘導することを示す。
一般のユーザ層では、テキストセットの好みが反相関性がある場合、これらの項目は、ユーザーには推奨されない。
本稿では,各ユーザの多様な利害関係を捉えるために,代替的なモデリング修正を提案する。
論文 参考訳(メタデータ) (2021-06-23T18:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。