論文の概要: Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning
- arxiv url: http://arxiv.org/abs/2408.10075v1
- Date: Mon, 19 Aug 2024 15:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:43:09.854205
- Title: Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning
- Title(参考訳): 変分選好学習による人間フィードバックからの強化学習のパーソナライズ
- Authors: Sriyash Poddar, Yanming Wan, Hamish Ivison, Abhishek Gupta, Natasha Jaques,
- Abstract要約: ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
- 参考スコア(独自算出の注目度): 12.742158403867002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a powerful paradigm for aligning foundation models to human values and preferences. However, current RLHF techniques cannot account for the naturally occurring differences in individual human preferences across a diverse population. When these differences arise, traditional RLHF frameworks simply average over them, leading to inaccurate rewards and poor performance for individual subgroups. To address the need for pluralistic alignment, we develop a class of multimodal RLHF methods. Our proposed techniques are based on a latent variable formulation - inferring a novel user-specific latent and learning reward models and policies conditioned on this latent without additional user-specific data. While conceptually simple, we show that in practice, this reward modeling requires careful algorithmic considerations around model architecture and reward scaling. To empirically validate our proposed technique, we first show that it can provide a way to combat underspecification in simulated control problems, inferring and optimizing user-specific reward functions. Next, we conduct experiments on pluralistic language datasets representing diverse user preferences and demonstrate improved reward function accuracy. We additionally show the benefits of this probabilistic framework in terms of measuring uncertainty, and actively learning user preferences. This work enables learning from diverse populations of users with divergent preferences, an important challenge that naturally occurs in problems from robot learning to foundation model alignment.
- Abstract(参考訳): ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、基礎モデルを人間の価値観や嗜好に合わせるための強力なパラダイムである。
しかし、現在のRLHF技術は、多様な個体群にまたがる個人の嗜好の自然に生じる相違を説明できない。
これらの違いが生じると、従来のRLHFフレームワークは単にそれらを平均化し、不正確な報酬と個々のサブグループのパフォーマンスが低下する。
多重性アライメントの必要性に対処するため,マルチモーダルRLHF手法のクラスを開発する。
提案手法は,潜在変数の定式化に基づくもので,新規なユーザ固有潜時モデルと学習報酬モデルと,追加のユーザ固有データなしで条件付きポリシを推定する。
概念的には単純であるが、実際には、この報酬モデリングにはモデルアーキテクチャと報酬スケーリングに関する慎重にアルゴリズム的な考慮が必要である。
提案手法を実証的に検証するために、まず、シミュレーションされた制御問題において、ユーザ固有の報酬関数を推論し、最適化することにより、不特定性に対処する方法を提供する。
次に、多様なユーザの好みを表す多言語データセットの実験を行い、報酬関数の精度の向上を示す。
さらに、不確実性を測定し、ユーザの好みを積極的に学習するという点で、この確率的フレームワークの利点を示す。
この研究は、ロボット学習から基礎モデルアライメントまで、自然に発生する重要な課題である、異なる好みを持つユーザの多様な集団からの学習を可能にする。
関連論文リスト
- Aligning Visual Contrastive learning models via Preference Optimization [0.9438963196770565]
本稿では,複雑な概念を分解するために,優先度最適化(PO)を用いたコントラスト学習モデルの学習方法を提案する。
提案手法は,モデル行動と所望の嗜好を体系的に整合させ,目標タスクの性能を向上させる。
特に、CLIPのような対照的なモデルでよく見られる、タイポグラフィー攻撃に対するモデル堅牢性の向上に焦点を当てる。
さらに, 性別の理解を阻害し, 性別の偏見を緩和するために本手法を適用し, センシティブな属性をより微妙に制御する。
論文 参考訳(メタデータ) (2024-11-12T08:14:54Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。