論文の概要: HelpSteer2-Preference: Complementing Ratings with Preferences
- arxiv url: http://arxiv.org/abs/2410.01257v1
- Date: Wed, 2 Oct 2024 06:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:18:46.950033
- Title: HelpSteer2-Preference: Complementing Ratings with Preferences
- Title(参考訳): HelpSteer2-Preference: 優先度付きレーティングを補完する
- Authors: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong,
- Abstract要約: リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。
データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。
そこで我々はBradley-huggingとRegression reward Modelingを組み合わせた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 45.01567242039055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward
- Abstract(参考訳): リワードモデルはモデルが指示に従うために重要なものであり、一般的にはブラッドリー・テリースタイルまたは回帰スタイルという2つの一般的なパラダイムの1つに従って訓練される。
しかし、データに適切に一致する場合、どちらのアプローチも他方よりも優れているという証拠が不足している。
これは主に、これらのアプローチが異なる(互換性のない)フォーマットで収集されたデータを必要とするためである。
この問題に対処するため、HelpSteer2データセットの既存のレーティング(回帰スタイルのトレーニング用に設計された)を補完するために、プライオリティアノテーション(Bradley-Terryトレーニング用に設計された)をリリースしました。
データ解釈性を改善するため、嗜好アノテーションには人間による正当化が伴う。
このデータを用いてBradley-TerryモデルとRegressionモデルの比較を行った。
このような比較から得られた知見に基づいて、Bradley-TerryとRegressionの報酬モデリングを組み合わせた新しい手法を提案する。
このアプローチをチューニングしたLlama-3.1-70B-InstructモデルはRewardBenchで94.1得点を記録し、2024年10月1日時点で140以上の報酬モデルでトップとなった。
また、この報酬モデルの有効性をRLHFの命令に従うためにモデルを調整する際にも示す。
私たちはこのデータセット(CC-BY-4.0ライセンス)をhttps://huggingface.co/datasets/nvidia/HelpSteer2でオープンソース化し、トレーニング済みのReward Modelをhttps://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Rewardで公開しました。
関連論文リスト
- Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである
事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-05-30T08:16:22Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Differentially Private Reward Estimation with Preference Feedback [15.943664678210146]
嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。
上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。
我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-30T16:58:30Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Backward Compatibility During Data Updates by Weight Interpolation [17.502410289568587]
データ更新時の回帰問題について検討し、後方対応型重み補間法(BCWI)を提案する。
BCWIは、新しいモデルの精度の向上を犠牲にすることなく、負のフリップを減らす。
また,複数の新モデルの重み付けにおける重み付けと平均化による負のフリップの低減についても検討する。
論文 参考訳(メタデータ) (2023-01-25T12:23:10Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。