Fugu-MT 論文翻訳(概要): Secrets of RLHF in Large Language Models Part II: Reward Modeling

論文の概要: Secrets of RLHF in Large Language Models Part II: Reward Modeling

arxiv url: http://arxiv.org/abs/2401.06080v2
Date: Fri, 12 Jan 2024 09:46:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 12:17:06.539148
Title: Secrets of RLHF in Large Language Models Part II: Reward Modeling
Title（参考訳）: 大言語モデルにおけるrlhfの秘密その2:報酬モデリング
Authors: Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
Abstract要約: 本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
参考スコア（独自算出の注目度）: 134.97964938009588
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の価値観と意図を整合させる重要な技術となり、モデルがより有用で無害な応答を生成できるようにする。報酬モデルは強化学習最適化を推進するために人間の好みのプロキシとして訓練される。報酬モデルはしばしば高いパフォーマンスを達成する上で重要であると考えられているが、(1)データセット内の不正確で曖昧な選好ペアは、報酬モデルが人間の意図を正確に捉えるのを妨げる可能性がある。 2)特定の分布のデータに基づいてトレーニングされたリワードモデルは,その分布外の例に一般化するのに苦労することが多く,反復的なRLHFトレーニングには適さない。本稿では,この2つの問題に対処する。 1)データの観点から,複数の報酬モデルの投票機構に基づいて,データ内の嗜好の強さを測定する手法を提案する。実験の結果,選好強度の異なるデータは報奨モデルの性能に異なる影響を与えることがわかった。本稿では,データセットにおける不正確かつ曖昧な選好の影響を緩和し,高品質な選好データを完全に活用する手法を提案する。 2)アルゴリズムの観点からは,報酬モデルが選択された応答と拒否された応答を区別する能力を高め,モデル一般化を改善するために,コントラッシブラーニングを導入する。さらに,報奨モデルを用いたメタラーニングにより,配布外サンプルの微妙な差異を識別する能力を維持し,本手法を反復的RLHF最適化に利用することができる。

関連論文リスト

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文参考訳（メタデータ） (2024-08-19T15:18:30Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文参考訳（メタデータ） (2024-04-07T12:10:04Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文参考訳（メタデータ） (2024-01-29T17:43:42Z)
West-of-N: Synthetic Preferences for Self-Improving Reward Models [20.643537269666137]
合成選好データを生成することによって報酬モデルの品質を向上させる新しい手法を提案する。提案手法は,同量の人選好データの追加に匹敵する効果で,報酬モデルの性能向上を図っている。
論文参考訳（メタデータ） (2024-01-22T16:24:43Z)
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文参考訳（メタデータ） (2023-10-31T21:52:41Z)
FairIF: Boosting Fairness in Deep Learning via Influence Functions with Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。 FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文参考訳（メタデータ） (2022-01-15T05:14:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。