論文の概要: Whose Boat Does it Float? Improving Personalization in Preference Tuning via Inferred User Personas
- arxiv url: http://arxiv.org/abs/2501.11549v2
- Date: Sun, 01 Jun 2025 02:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:53.100148
- Title: Whose Boat Does it Float? Improving Personalization in Preference Tuning via Inferred User Personas
- Title(参考訳): 誰のボートが浮かぶか? 推定ユーザペルソナによる選好調整におけるパーソナライゼーションの改善
- Authors: Nishant Balepur, Vishakh Padmakumar, Fumeng Yang, Shi Feng, Rachel Rudinger, Jordan Lee Boyd-Graber,
- Abstract要約: 選好データに対する帰納的推論をパーソナライズの表面パラメータに適用する。
本稿では,Persona Tailoring(PT)トレーニングによってパーソナライズが促進され,ユーザによるペルソナ支援が一般化されることを示す。
我々は、パーソナライズのための選好の誘惑的な見解を論じ、どの反応が良いかだけでなく、いつ、なぜ、誰が良いのかを問う。
- 参考スコア(独自算出の注目度): 24.69184389956837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are aligned to follow input instructions by learning which of two responses users prefer for a prompt. However, such preference data do not convey why users prefer responses that are chosen or rejected, so LLMs trained on these datasets cannot tailor responses to varied user needs. To surface these parameters of personalization, we apply abductive reasoning to preference data, inferring needs and interests of users, i.e., personas, that may prefer either response. We test this idea in two steps: Persona Inference (PI), abductively inferring personas of users who prefer chosen or rejected outputs, and Persona Tailoring (PT), training models to tailor outputs to personas from PI. We show: 1) LLMs infer personas accurately explaining why different users may prefer both chosen or rejected outputs; 2) Training on preference data augmented with PI personas via PT boosts personalization and generalizes to supporting user-written personas; and 3) Rejected response personas form harder personalization evaluations, showing PT better aids users with uncommon preferences versus typical alignment methods. We argue for an abductive view of preferences for personalization, asking not only which response is better but when, why, and for whom.
- Abstract(参考訳): LLMは、2つの応答のうちどれがプロンプトを好むかを学ぶことで、入力命令に従うように整列されている。
しかし、そのような嗜好データは、ユーザーが選択または拒否された応答を好む理由を示さないため、これらのデータセットでトレーニングされたLCMは、さまざまなユーザニーズに対する応答を調整できない。
パーソナライゼーションのパラメータを明らかにするために、嗜好データに誘惑的推論を適用し、ユーザのニーズや関心、すなわち、どちらの応答も好むペルソナを推定する。
我々はこのアイデアを2つのステップで検証する:ペルソナ推論(PI)、選択または拒否されたアウトプットを好むユーザのペルソナを誘導的に推論する、ペルソナ推論(PT)、PIからペルソナにアウトプットを調整するためのトレーニングモデル。
以下に示す。
1) LLMは,何故異なるユーザが選択又は拒否された出力を好むのかを正確に説明するペルソナを推論する。
2) PIペルソナをPTで強化した嗜好データのトレーニングは、パーソナライズを促進し、ユーザ記述ペルソナのサポートに一般化する。
3) 回答ペルソナの拒絶は, パーソナライズ評価を困難にし, PTは, 一般的なアライメント法に比べて, 好ましくない好みのユーザを支援する。
我々は、パーソナライズのための選好の誘惑的な見解を論じ、どの反応が良いかだけでなく、いつ、なぜ、誰が良いのかを問う。
関連論文リスト
- Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Language Model Personalization via Reward Factorization [38.30745045315918]
ユーザパーソナライズを可能にするためにRLHFを拡張するフレームワークを導入する。
ユーザ固有の報酬を,基本報酬関数の線形結合として表現する。
人間の評価では,デフォルトの GPT-4o 応答よりも 67% の勝利率が得られる。
論文 参考訳(メタデータ) (2025-03-08T23:41:20Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Optimizing Data Delivery: Insights from User Preferences on Visuals, Tables, and Text [59.68239795065175]
ユーザが質問を提示するユーザスタディを実施し、何を見たいのかを尋ねます。
ユーザの個人的特性が、彼らが好むデータ出力に影響を与えることを確認するために、このデータを使用します。
論文 参考訳(メタデータ) (2024-11-12T00:24:31Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Learning Implicit User Profiles for Personalized Retrieval-Based Chatbot [29.053654530024083]
IMPChatは、ユーザのパーソナライズされた言語スタイルとパーソナライズされた好みを個別にモデリングすることで、暗黙のユーザプロファイルを学習することを目的としている。
ユーザのパーソナライズされた言語スタイルを学習するために,ユーザの過去の応答を利用して,浅い言語から深い言語モデルを構築する。
回答候補をそれぞれパーソナライズされた言語スタイルとパーソナライズされた好みとでマッチングし、2つのマッチング信号を融合して最終的なランキングスコアを決定する。
論文 参考訳(メタデータ) (2021-08-18T02:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。