論文の概要: The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models
- arxiv url: http://arxiv.org/abs/2410.06554v1
- Date: Wed, 16 Oct 2024 04:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:59:08.370403
- Title: The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models
- Title(参考訳): RLHFの精度パラドックス:より良いリワードモデルがより良い言語モデルを得ることができない場合
- Authors: Yanjun Chen, Dawei Zhu, Yirong Sun, Xinghao Chen, Wei Zhang, Xiaoyu Shen,
- Abstract要約: 本研究は、強い報酬モデルがより良い言語モデルに必然的に繋がるかどうかを考察する。
適度に正確な報酬モデルで訓練された言語モデルは、非常に正確なモデルによってガイドされた言語よりも優れています。
このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦する。
- 参考スコア(独自算出の注目度): 18.64902083536956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback significantly enhances Natural Language Processing by aligning language models with human expectations. A critical factor in this alignment is the strength of reward models used during training. This study explores whether stronger reward models invariably lead to better language models. In this paper, through experiments on relevance, factuality, and completeness tasks using the QA-FEEDBACK dataset and reward models based on Longformer, we uncover a surprising paradox: language models trained with moderately accurate reward models outperform those guided by highly accurate ones. This challenges the widely held belief that stronger reward models always lead to better language models, and opens up new avenues for future research into the key factors driving model performance and how to choose the most suitable reward models. Code and additional details are available at [https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF).
- Abstract(参考訳): 人間のフィードバックからの強化学習は、言語モデルと人間の期待を一致させることで、自然言語処理を大幅に強化する。
このアライメントにおける重要な要素は、トレーニング中に使用される報酬モデルの強さである。
本研究は、強い報酬モデルがより良い言語モデルに必然的に繋がるかどうかを考察する。
本稿では、QA-FEEDBACKデータセットとLongformerに基づく報酬モデルを用いて、関連性、事実性、完全性に関する実験を通して、驚くべきパラドックスを発見した。
このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦し、モデルパフォーマンスを駆動する重要な要因と、最も適切な報酬モデルを選択する方法について、将来の研究のための新たな道を開く。
コードと詳細は[https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF]で確認できる。
関連論文リスト
- Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - West-of-N: Synthetic Preferences for Self-Improving Reward Models [20.643537269666137]
合成選好データを生成することによって報酬モデルの品質を向上させる新しい手法を提案する。
提案手法は,同量の人選好データの追加に匹敵する効果で,報酬モデルの性能向上を図っている。
論文 参考訳(メタデータ) (2024-01-22T16:24:43Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。