論文の概要: Critique-out-Loud Reward Models
- arxiv url: http://arxiv.org/abs/2408.11791v1
- Date: Wed, 21 Aug 2024 17:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:08:22.536280
- Title: Critique-out-Loud Reward Models
- Title(参考訳): 批評-アウト・ロード・リワードモデル
- Authors: Zachary Ankner, Mansheej Paul, Brandon Cui, Jonathan D. Chang, Prithviraj Ammanabrolu,
- Abstract要約: 本稿では,Crytique-out-Loud(CLoud)報酬モデルを紹介する。
CLoud報酬モデルは、まずアシスタントの応答に対する自然言語の批判を生成することで機能する。
我々は,Llama-3-8Bおよび70BベースモデルのCLoud報酬モデルの成功例を示した。
- 参考スコア(独自算出の注目度): 20.631830494414096
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditionally, reward models used for reinforcement learning from human feedback (RLHF) are trained to directly predict preference scores without leveraging the generation capabilities of the underlying large language model (LLM). This limits the capabilities of reward models as they must reason implicitly about the quality of a response, i.e., preference modeling must be performed in a single forward pass through the model. To enable reward models to reason explicitly about the quality of a response, we introduce Critique-out-Loud (CLoud) reward models. CLoud reward models operate by first generating a natural language critique of the assistant's response that is then used to predict a scalar reward for the quality of the response. We demonstrate the success of CLoud reward models for both Llama-3-8B and 70B base models: compared to classic reward models CLoud reward models improve pairwise preference classification accuracy on RewardBench by 4.65 and 5.84 percentage points for the 8B and 70B base models respectively. Furthermore, CLoud reward models lead to a Pareto improvement for win rate on ArenaHard when used as the scoring model for Best-of-N. Finally, we explore how to exploit the dynamic inference compute capabilities of CLoud reward models by performing self-consistency decoding for reward prediction.
- Abstract(参考訳): 伝統的に、人間フィードバック(RLHF)からの強化学習に使用される報酬モデルは、基礎となる大規模言語モデル(LLM)の生成能力を活用することなく、好みのスコアを直接予測するように訓練されている。
これは、応答の品質について暗黙的に推論する必要があるため、報酬モデルの能力を制限する。
報酬モデルが応答の質を明示的に判断できるようにするため、報酬モデル(CLoud)を導入する。
CLoud報酬モデルは、まずアシスタントの応答に対する自然言語の批評を生成し、次に応答の品質に対するスカラー報酬を予測する。
Llama-3-8Bベースモデルと70Bベースモデルの両方に対するCLoud報酬モデルの成功例を示す:古典的な報酬モデルと比較して、CLoud報酬モデルはRewardBench上でのペアワイズ選好分類の精度を、それぞれ8Bベースモデルと70Bベースモデルで5.84ポイント改善する。
さらに、CLoud報酬モデルは、ベスト・オブ・Nのスコアモデルとして使用される場合、ArenaHardでの勝利率に対するParetoの改善につながる。
最後に,CLoud報酬モデルの動的推論計算能力を,報酬予測のための自己整合デコーディングによって活用する方法を検討する。
関連論文リスト
- Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T18:28:26Z) - Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style [37.97757796124621]
RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。
RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-21T16:48:26Z) - The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models [18.64902083536956]
適度に正確な報酬モデルで訓練された言語モデルは、高い精度で指導された言語よりも優れていることを示す。
このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-09T05:17:08Z) - Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。
本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文 参考訳(メタデータ) (2024-09-26T04:28:35Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。