論文の概要: MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences
- arxiv url: http://arxiv.org/abs/2402.08925v1
- Date: Wed, 14 Feb 2024 03:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:54:48.768951
- Title: MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences
- Title(参考訳): MaxMin-RLHF: 多様な人間の嗜好を持つ大規模言語モデルの等価アライメントを目指して
- Authors: Souradip Chakraborty, Jiahao Qiu, Hui Yuan, Alec Koppel, Furong Huang,
Dinesh Manocha, Amrit Singh Bedi, and Mengdi Wang
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
- 参考スコア(独自算出の注目度): 101.57443597426374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) aligns language models to
human preferences by employing a singular reward model derived from preference
data. However, such an approach overlooks the rich diversity of human
preferences inherent in data collected from multiple users. In this work, we
first derive an impossibility result of alignment with single reward RLHF,
thereby highlighting its insufficiency in representing diverse human
preferences. To provide an equitable solution to the problem, we learn a
mixture of preference distributions via an expectation-maximization algorithm
and propose a MaxMin alignment objective for policy learning inspired by the
Egalitarian principle in social choice theory to better represent diverse human
preferences. We elucidate the connection of our proposed approach to
distributionally robust optimization and general utility RL, thereby
highlighting the generality and robustness of our proposed solution. We present
comprehensive experimental results on small-scale (GPT-2) and large-scale
language models (with Tulu2-7B) and show the efficacy of the proposed approach
in the presence of diversity among human preferences. Our algorithm achieves an
average improvement of more than 16% in win-rates over conventional RLHF
algorithms and improves the win-rate (accuracy) for minority groups by over 33%
without compromising the performance of majority groups, showcasing the
robustness and fairness of our approach. We remark that our findings in this
work are not only limited to language models but also extend to reinforcement
learning in general.
- Abstract(参考訳): 人的フィードバック(rlhf)からの強化学習は、選好データから派生した独特な報奨モデルを使用することで、言語モデルと人間の選好を整合させる。
しかし、このようなアプローチは、複数のユーザーから収集されたデータに固有の人間の好みの多様性を見落としている。
本研究は,まず,単一報酬rlhfとアライメントすることの不可能性を導出し,多様な人間の嗜好を表わす上での不十分さを強調する。
期待最大化アルゴリズムを用いて選好分布の混合を学習し、社会的選択理論における平等主義の原理に触発された政策学習のためのマクスミンアライメント目標を提案し、多様な人間の選好をよりよく表現する。
分散的ロバストな最適化と一般用途RLに対する提案手法の接続を解明し,提案手法の汎用性とロバスト性を明らかにする。
本稿では,小規模言語モデル(gpt-2)と大規模言語モデル(tulu2-7b)の包括的実験結果を示し,提案手法の有効性を示す。
本アルゴリズムは,従来のrlhfアルゴリズムと比較して平均16%以上のウィンレート向上を達成し,多数派グループのパフォーマンスを損なうことなく,少数グループのウィンレート(精度)を33%以上向上させた。
この研究で分かったことは、言語モデルに限らず、強化学習全般にも及んでいる、と私たちは述べている。
関連論文リスト
- Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - Aligning Crowd Feedback via Distributional Preference Reward Modeling [30.468757225982557]
本研究では,大きな言語モデルと人間の好みの多様なセットを一致させるために,DPRM(Distributal Preference Reward Model)を導入する。
実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-15T07:29:43Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A density estimation perspective on learning from pairwise human
preferences [32.64330423345252]
選好行動分布方程式を用いて定義された生成過程の族に対して、ペアの選好に対して報酬関数を訓練することにより、アノテータの暗黙の選好分布を効果的にモデル化できることが示される。
アノテーションの誤用(annotator misspecification) - アノテーションの振る舞いに関する誤ったモデリング仮定が作成され、不適応なモデルが生じる、失敗事例について議論し、提示する。
論文 参考訳(メタデータ) (2023-11-23T17:20:36Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Aligning Language Models with Human Preferences via a Bayesian Approach [11.984246334043673]
人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。
本稿では,人選好における不一致の分布を選好モデルのトレーニングとして考慮するために,ベイズ的枠組みを用いた新しいアプローチを提案する。
自動評価と人的評価の両方において,従来のSOTAモデルよりずっと上回っている。
論文 参考訳(メタデータ) (2023-10-09T15:15:05Z) - Reinforcement Learning from Diverse Human Preferences [95.61153128294939]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。