論文の概要: Language Model Personalization via Reward Factorization
- arxiv url: http://arxiv.org/abs/2503.06358v1
- Date: Sat, 08 Mar 2025 23:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:50.654569
- Title: Language Model Personalization via Reward Factorization
- Title(参考訳): 逆因子化による言語モデルパーソナライズ
- Authors: Idan Shenfeld, Felix Faltings, Pulkit Agrawal, Aldo Pacchiano,
- Abstract要約: ユーザパーソナライズを可能にするためにRLHFを拡張するフレームワークを導入する。
ユーザ固有の報酬を,基本報酬関数の線形結合として表現する。
人間の評価では,デフォルトの GPT-4o 応答よりも 67% の勝利率が得られる。
- 参考スコア(独自算出の注目度): 38.30745045315918
- License:
- Abstract: Modern large language models (LLMs) are optimized for human-aligned responses using Reinforcement Learning from Human Feedback (RLHF). However, existing RLHF approaches assume a universal preference model and fail to account for individual user preferences, limiting their effectiveness in personalized applications. We introduce a framework that extends RLHF to enable user personalization by leveraging the assumption that user preferences lie in a low-dimensional space. Instead of training a separate model per user, we represent user-specific rewards as a linear combination of base reward functions. Using only ~10 user responses, our method can infer user-specific rewards and align LLM outputs accordingly. We validate our approach through experiments with both synthetic and real users, demonstrating significant personalization achieved by our method. In human evaluations, our method achieves a 67% win rate over default GPT-4o responses.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) を用いて, 現代の大規模言語モデル (LLM) を人間対応応答に最適化する。
しかし、既存のRLHFアプローチは、普遍的な嗜好モデルを想定し、個々のユーザの嗜好を考慮せず、パーソナライズされたアプリケーションにおける有効性を制限している。
我々はRLHFを拡張し、低次元空間にユーザの嗜好が存在しているという仮定を活用することで、ユーザのパーソナライズを可能にするフレームワークを提案する。
ユーザ毎に個別のモデルをトレーニングする代わりに、ユーザ固有の報酬をベース報酬関数の線形結合として表現する。
ユーザ応答は10程度で,ユーザ固有の報酬を推測し,それに応じてLCM出力をアライメントすることができる。
提案手法は,合成ユーザと実ユーザの両方による実験により検証し,本手法により達成されたパーソナライゼーションの意義を実証する。
人間の評価では,デフォルトの GPT-4o 応答よりも 67% の勝利率が得られる。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Aligning Language Models Using Follow-up Likelihood as Reward Signal [40.388526412214276]
そこで本稿では,好ましくない応答を区別するための報奨として,フォローアップ発話の可能性を提案する。
提案した報奨機構であるFollow-up Likelihood as Reward (FLR) は,大規模人やGPT-4アノテートデータに基づいてトレーニングされた強力な報奨モデルの性能と一致する。
論文 参考訳(メタデータ) (2024-09-20T23:47:25Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - UserIdentifier: Implicit User Representations for Simple and Effective
Personalized Sentiment Analysis [36.162520010250056]
提案するUserIdentifierは,すべてのユーザに対して単一の共有モデルをトレーニングするための新しいスキームである。
提案手法は,入力データに固定された非トレーニング可能なユーザ識別子を追加することで,パーソナライズされた応答を生成する。
論文 参考訳(メタデータ) (2021-10-01T00:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。