論文の概要: HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
- arxiv url: http://arxiv.org/abs/2505.11475v1
- Date: Fri, 16 May 2025 17:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.772142
- Title: HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
- Title(参考訳): HelpSteer3-Preference: さまざまなタスクや言語にまたがるオープンヒューマンアノテーションによる推論データ
- Authors: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev,
- Abstract要約: 提案するHelpSteer3-Preferenceは,4万以上のサンプルからなる高品質な人手による選好データセットである。
これらのサンプルは、STEM、コーディング、多言語シナリオに関連するタスクを含む、大規模言語モデル(LLM)の様々な現実世界のアプリケーションにまたがる。
HelpSteer3-Preference を用いて、RM-Bench (82.4%) と JudgeBench (73.7%) で最高性能を達成するリワードモデル (RM) を訓練する。
- 参考スコア(独自算出の注目度): 43.78167339173775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference datasets are essential for training general-domain, instruction-following language models with Reinforcement Learning from Human Feedback (RLHF). Each subsequent data release raises expectations for future data collection, meaning there is a constant need to advance the quality and diversity of openly available preference data. To address this need, we introduce HelpSteer3-Preference, a permissively licensed (CC-BY-4.0), high-quality, human-annotated preference dataset comprising of over 40,000 samples. These samples span diverse real-world applications of large language models (LLMs), including tasks relating to STEM, coding and multilingual scenarios. Using HelpSteer3-Preference, we train Reward Models (RMs) that achieve top performance on RM-Bench (82.4%) and JudgeBench (73.7%). This represents a substantial improvement (~10% absolute) over the previously best-reported results from existing RMs. We demonstrate HelpSteer3-Preference can also be applied to train Generative RMs and how policy models can be aligned with RLHF using our RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
- Abstract(参考訳): 予測データセットは、Reinforcement Learning from Human Feedback (RLHF)を用いた一般ドメイン、命令追従言語モデルのトレーニングに不可欠である。
それぞれのデータリリースは、将来のデータ収集に対する期待を高めるため、オープンに利用可能な嗜好データの品質と多様性を常に前進させる必要がある。
このニーズに対処するために,4万以上のサンプルからなる高品質な人為的な嗜好データセットであるパーミッシブライセンス(CC-BY-4.0)であるHelpSteer3-Preferenceを紹介した。
これらのサンプルは、STEM、コーディング、多言語シナリオに関連するタスクを含む、大規模言語モデル(LLM)の様々な現実世界のアプリケーションにまたがる。
HelpSteer3-Preference を用いて、RM-Bench (82.4%) と JudgeBench (73.7%) で最高のパフォーマンスを達成するリワードモデル (RM) を訓練する。
これは、既存のRMから報告された結果よりも大幅に改善(~10%絶対)したことを意味する。
HelpSteer3-Preferenceは、ジェネレーティブRMのトレーニングにも適用でき、ポリシーモデルがRMを使用してRLHFと整合できることを実証します。
Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
関連論文リスト
- Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - HelpSteer2: Open-source dataset for training top-performing reward models [9.214886217647157]
我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。
HelpSteer2は1万のレスポンスペアで構成されている。
本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
論文 参考訳(メタデータ) (2024-06-12T22:28:08Z) - FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。
現在、FedLLMの現実的なデータセットやベンチマークは存在しない。
我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-07T11:19:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Everyone Deserves A Reward: Learning Customized Human Preferences [25.28261194665836]
リワードモデル(RM)は、対話品質を改善するために、大きな言語モデルと人間の好みを合わせるのに不可欠である。
そこで我々は3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証した。
我々は、カスタマイズされたRMをトレーニングしながら、一般的な好みの能力をよりよく保存する方法をいくつか見出す。
論文 参考訳(メタデータ) (2023-09-06T16:03:59Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。