論文の概要: A Shared Low-Rank Adaptation Approach to Personalized RLHF
- arxiv url: http://arxiv.org/abs/2503.19201v1
- Date: Mon, 24 Mar 2025 23:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:30.954072
- Title: A Shared Low-Rank Adaptation Approach to Personalized RLHF
- Title(参考訳): パーソナライズされたRLHFに対する共有低ランク適応手法
- Authors: Renpu Liu, Peng Wang, Donghao Li, Cong Shen, Jing Yang,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、人工知能システムと人間の価値を整合させる重要な手法として登場した。
既存のRLHFフレームワークは、人間の嗜好が比較的均一であり、単一の統一報酬モデルによって捉えられると仮定することが多い。
本稿では、ローランド適応(LoRA)をパーソナライズしたRLHFフレームワークに導入する。
- 参考スコア(独自算出の注目度): 12.874322231672009
- License:
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal technique for aligning artificial intelligence systems with human values, achieving remarkable success in fine-tuning large language models. However, existing RLHF frameworks often assume that human preferences are relatively homogeneous and can be captured by a single, unified reward model. This assumption overlooks the inherent diversity and heterogeneity across individuals, limiting the adaptability of RLHF to personalized scenarios and risking misalignments that can diminish user satisfaction and trust in AI systems. In this paper, we address these challenges by introducing Low-Rank Adaptation (LoRA) into the personalized RLHF framework. We apply LoRA in the the aggregated parameter space of all personalized reward functions, thereby enabling efficient learning of personalized reward models from potentially limited local datasets. Our approach exploits potential shared structures among the local ground-truth reward models while allowing for individual adaptation, without relying on restrictive assumptions about shared representations as in prior works. We further establish sample complexity guarantees for our method. Theoretical analysis demonstrates the effectiveness of the proposed approach in capturing both shared and individual-specific structures within heterogeneous human preferences, addressing the dual challenge of personalization requirements and practical data constraints. Experimental results on real-world datasets corroborate the efficiency of our algorithm in the personalized RLHF setting.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、人工知能システムを人間の価値と整合させる重要な技術として登場し、微調整された大きな言語モデルにおいて顕著な成功を収めている。
しかしながら、既存のRLHFフレームワークは、人間の嗜好は比較的均一であり、単一の統一報酬モデルによって捉えられると仮定することが多い。
この仮定は、個人間の固有の多様性と不均一性を見落とし、RLHFのパーソナライズされたシナリオへの適応性を制限し、AIシステムに対するユーザの満足度と信頼を低下させる可能性のある誤った調整を危険にさらす。
本稿では、ローランド適応(LoRA)をパーソナライズしたRLHFフレームワークに導入することで、これらの課題に対処する。
パーソナライズされた報酬関数の集合パラメータ空間にLoRAを適用し、潜在的に限定されたローカルデータセットからパーソナライズされた報酬モデルの効率的な学習を可能にする。
提案手法は,従来のような共有表現に関する限定的な仮定に頼ることなく,個々の適応を可能としながら,局所的基盤構造報酬モデル間の潜在的な共有構造を利用する。
さらに,本手法の複雑性保証について検討する。
理論的分析は、個人化要件と実用的なデータ制約の2つの課題に対処し、異質な人間の嗜好の中で共有構造と個別構造の両方を捕捉する手法の有効性を示す。
実世界のデータセットに対する実験結果は、パーソナライズされたRLHF設定におけるアルゴリズムの効率を相関させる。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Addressing Data Heterogeneity in Federated Learning with Adaptive Normalization-Free Feature Recalibration [1.33512912917221]
フェデレートラーニング(Federated Learning)は、ステークホルダーのデータ所有を保護し、パフォーマンスと一般化を改善した分散コラボレーティブトレーニングパラダイムである。
本稿では、重み付け標準化とチャネルアテンションを組み合わせたアーキテクチャレベルの手法である、適応正規化自由特徴校正(ANFR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T20:16:56Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Distributed Personalized Empirical Risk Minimization [19.087524494290676]
本稿では、異種データからの学習を容易にするために、新たなパラダイムであるPersonalized Empirical Risk Minimization(PERM)を提案する。
本稿では,標準モデル平均化をモデルシャッフルに置き換えた分散アルゴリズムを提案し,すべてのデバイスに対してPERM目標を同時に最適化する。
論文 参考訳(メタデータ) (2023-10-26T20:07:33Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。