論文の概要: HelpSteer2: Open-source dataset for training top-performing reward models
- arxiv url: http://arxiv.org/abs/2406.08673v1
- Date: Wed, 12 Jun 2024 22:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:57:44.931423
- Title: HelpSteer2: Open-source dataset for training top-performing reward models
- Title(参考訳): HelpSteer2:トップパフォーマンス報酬モデルのトレーニングのためのオープンソースデータセット
- Authors: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev,
- Abstract要約: 我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。
HelpSteer2は1万のレスポンスペアで構成されている。
本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
- 参考スコア(独自算出の注目度): 9.214886217647157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality preference datasets are essential for training reward models that can effectively guide large language models (LLMs) in generating high-quality responses aligned with human preferences. As LLMs become stronger and better aligned, permissively licensed preference datasets, such as Open Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for reward modeling. Methods that distil preference data from proprietary LLMs such as GPT-4 have restrictions on commercial usage imposed by model providers. To improve upon both generated responses and attribute labeling quality, we release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0). Using a powerful internal base model trained on HelpSteer2, we are able to achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming currently listed open and proprietary models, as of June 12th, 2024. Notably, HelpSteer2 consists of only ten thousand response pairs, an order of magnitude fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly efficient for training reward models. Our extensive experiments demonstrate that reward models trained with HelpSteer2 are effective in aligning LLMs. In particular, we propose SteerLM 2.0, a model alignment approach that can effectively make use of the rich multi-attribute score predicted by our reward models. HelpSteer2 is available at https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at https://github.com/NVIDIA/NeMo-Aligner
- Abstract(参考訳): 高品質な嗜好データセットは、人間の嗜好に沿った高品質な応答を生成するために、大きな言語モデル(LLM)を効果的に導くことができる報酬モデルのトレーニングに不可欠である。
LLMはより強力で整合性が高くなり、Open Assistant、HH-RLHF、HelpSteerといったパーミッシブにライセンスされた選好データセットは、報酬モデリングに有効であるように更新する必要がある。
GPT-4のようなプロプライエタリなLCMからの嗜好データを消し去る方法は、モデル提供者によって課される商業的利用を制限する。
生成された応答と属性ラベリングの品質を改善するため、パーミッシブライセンスの選好データセットであるHelpSteer2(CC-BY-4.0)をリリースする。
HelpSteer2でトレーニングされた強力な内部ベースモデルを使用して、2024年6月12日時点で、Reward-BenchのプライマリデータセットのSOTAスコア(92.0%)を達成でき、現在リストされているオープンおよびプロプライエタリモデルを上回るパフォーマンスを実現しています。
注目すべきなのは、HelpSteer2は1万のレスポンスペアで構成されており、既存の好みデータセット(例えばHH-RLHF)よりも桁違いに少ないため、報酬モデルのトレーニングに非常に効率的であることだ。
我々は,HelpSteer2を用いてトレーニングした報酬モデルがLLMの整列に有効であることを示す。
特に,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
HelpSteer2はhttps://huggingface.co/datasets/nvidia/HelpSteer2で、コードはhttps://github.com/NVIDIA/NeMo-Alignerで入手できる。
関連論文リスト
- CDR: Customizable Density Ratios of Strong-over-weak LLMs for Preference Annotation [15.776175440446414]
大規模言語モデル(LLM)の優先度調整は、高品質な人間の嗜好データに依存している。
そこで本研究では,既製のLCMを優先データアノテーションとして活用するトレーニングフリーかつ高効率な手法であるカスタマイズ密度比(CDR)を導入する。
本研究では,特定基準と嗜好を組み込んだ密度比報酬関数の調整により,領域内および対象領域内での性能が向上することを示す。
論文 参考訳(メタデータ) (2024-11-04T18:54:39Z) - Reward Modeling with Weak Supervision for Language Models [12.599789817157188]
この研究は、RLHFデータセットを拡張し、報酬モデルのパフォーマンスを向上させる戦略として、弱い監視を導入する。
RLHFデータセットを解析して不正確な応答を識別することにより、簡単なラベル付け関数を作成し、ラベルモデルを弱いラベル付きデータに校正した。
評価の結果,報酬モデルの性能を向上することで,弱い監視がより小さなデータセットに大きく貢献するが,その効果はより大きくラベル付けされたデータセットで減少することがわかった。
論文 参考訳(メタデータ) (2024-10-28T09:37:58Z) - Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs [54.11217789754743]
高品質なオープンソース嗜好データセットをキュレートするための効率的なデータ選択とフィルタリング手法を提案する。
我々は80Kの選好ペアのみを含むSkywork-Rewardデータコレクションをキュレートした。
我々はSkywork-Rewardモデルシリーズ、Skywork-Reward-Gemma-27BとSkywork-Reward-Llama-3.1-8Bを開発した。
論文 参考訳(メタデータ) (2024-10-24T06:06:26Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM [9.766582733709726]
SteerLMによるHelpSteerデータセットを使用したLlama 270Bのトレーニングでは、MT Benchで7.54スコアのモデルが作成されている。
HelpSteerは、応答を補助するさまざまな側面にアノテートされたマルチ属性の有用なデータセットである。
論文 参考訳(メタデータ) (2023-11-16T03:13:29Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。