論文の概要: LoRe: Personalizing LLMs via Low-Rank Reward Modeling
- arxiv url: http://arxiv.org/abs/2504.14439v1
- Date: Sun, 20 Apr 2025 01:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:33:18.287403
- Title: LoRe: Personalizing LLMs via Low-Rank Reward Modeling
- Title(参考訳): LoRe:低ランクリワードモデリングによるLLMのパーソナライズ
- Authors: Avinandan Bose, Zhihan Xiong, Yuejie Chi, Simon Shaolei Du, Lin Xiao, Maryam Fazel,
- Abstract要約: 本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
- 参考スコア(独自算出の注目度): 47.12507639759984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing large language models (LLMs) to accommodate diverse user preferences is essential for enhancing alignment and user satisfaction. Traditional reinforcement learning from human feedback (RLHF) approaches often rely on monolithic value representations, limiting their ability to adapt to individual preferences. We introduce a novel framework that leverages low-rank preference modeling to efficiently learn and generalize user-specific reward functions. By representing reward functions in a low-dimensional subspace and modeling individual preferences as weighted combinations of shared basis functions, our approach avoids rigid user categorization while enabling scalability and few-shot adaptation. We validate our method on multiple preference datasets, demonstrating superior generalization to unseen users and improved accuracy in preference prediction tasks.
- Abstract(参考訳): 大きな言語モデル(LLM)を多様なユーザの好みに合わせてパーソナライズすることは、アライメントとユーザの満足度を高めるために不可欠である。
人間のフィードバック(RLHF)からの伝統的な強化学習は、しばしばモノリシックな価値表現に依存し、個人の好みに適応する能力を制限する。
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
低次元部分空間における報酬関数を表現し、個々の嗜好を共有基底関数の重み付けの組み合わせとしてモデル化することにより、スケーラビリティと少数ショット適応を実現しつつ、厳密なユーザ分類を回避することができる。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
関連論文リスト
- HyPerAlign: Hypotheses-driven Personalized Alignment [24.67727411391369]
大規模言語モデル(LLM)のための仮説駆動型パーソナライズ手法(HyPerAlign)を提案する。
検討的なアライメントのために、LLMモデルの有効性は平均して70ドルまで改善される。
著者の帰属について、結果は、最先端の選好微調整アプローチに対して、常に高い勝利率(通常90%ドル)を示す。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - Language Model Personalization via Reward Factorization [38.30745045315918]
ユーザパーソナライズを可能にするためにRLHFを拡張するフレームワークを導入する。
ユーザ固有の報酬を,基本報酬関数の線形結合として表現する。
人間の評価では,デフォルトの GPT-4o 応答よりも 67% の勝利率が得られる。
論文 参考訳(メタデータ) (2025-03-08T23:41:20Z) - CoPL: Collaborative Preference Learning for Personalizing LLMs [8.158048301024149]
本稿では, ユーザの反応関係をモデル化し, 嗜好推定を向上するグラフベースの協調フィルタリングフレームワークを提案する。
CoPLは大きな言語モデル(LLM)を効率よく微調整し、共有とユーザ固有の好みを動的にバランスさせる。
UltraFeedback-Pの実験では、CoPLは既存のパーソナライズされた報酬モデルよりも優れており、共通の好みと議論の的になっている好みの両方を効果的に捉えている。
論文 参考訳(メタデータ) (2025-03-03T15:32:02Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。