論文の概要: Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
- arxiv url: http://arxiv.org/abs/2507.01352v1
- Date: Wed, 02 Jul 2025 04:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.046264
- Title: Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
- Title(参考訳): Skywork-Reward-V2:Human-AI Synergyによる予測データキュレーションのスケーリング
- Authors: Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou,
- Abstract要約: 我々はSkywork-Reward-V2という,0.6Bから8Bパラメータの8つの報酬モデルスイートを紹介し,SynPref-40Mから600万の選好ペアのサブセットをトレーニングした。
我々は、Skywork-Reward-V2が、人間の嗜好、客観的な正しさ、安全性、スタイリスティックなバイアスへの抵抗、Nのベスト・オブ・スケーリングなど、幅広い能力にまたがる汎用性を実証した。
- 参考スコア(独自算出の注目度): 26.455112415445146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the critical role of reward models (RMs) in reinforcement learning from human feedback (RLHF), current state-of-the-art open RMs perform poorly on most existing evaluation benchmarks, failing to capture the spectrum of nuanced and sophisticated human preferences. Even approaches that incorporate advanced training techniques have not yielded meaningful performance improvements. We hypothesize that this brittleness stems primarily from limitations in preference datasets, which are often narrowly scoped, synthetically labeled, or lack rigorous quality control. To address these challenges, we present a large-scale preference dataset comprising 40 million preference pairs, named SynPref-40M. To enable data curation at scale, we design a human-AI synergistic two-stage pipeline that leverages the complementary strengths of human annotation quality and AI scalability. In this pipeline, humans provide verified annotations, while large language models perform automatic curation based on human guidance. Training on this preference mixture, we introduce Skywork-Reward-V2, a suite of eight reward models ranging from 0.6B to 8B parameters, trained on a carefully curated subset of 26 million preference pairs from SynPref-40M. We demonstrate that Skywork-Reward-V2 is versatile across a wide range of capabilities, including alignment with human preferences, objective correctness, safety, resistance to stylistic biases, and best-of-N scaling, achieving state-of-the-art performance across seven major reward model benchmarks. Ablation studies confirm that the effectiveness of our approach stems not only from data scale but also from high-quality curation. The Skywork-Reward-V2 series represents substantial progress in open reward models, highlighting the untapped potential of existing preference datasets and demonstrating how human-AI curation synergy can unlock significantly higher data quality.
- Abstract(参考訳): 人からのフィードバック(RLHF)からの強化学習において、報酬モデル(RM)が重要な役割を担っているにもかかわらず、現在の最先端のオープンRMは既存のほとんどの評価ベンチマークでは性能が悪く、微妙で洗練された人間の嗜好のスペクトルを捉えられなかった。
高度なトレーニング技術を取り入れたアプローチでさえ、意味のあるパフォーマンス改善には至っていない。
この脆さは、主に嗜好データセットの制限に起因し、狭くスコープされたり、合成ラベル付けされたり、厳密な品質管理が欠如している、という仮説を立てる。
これらの課題に対処するため,SynPref-40Mという4000万の選好ペアからなる大規模選好データセットを提案する。
大規模なデータキュレーションを可能にするために、人間のアノテーション品質とAIスケーラビリティの相補的な強みを活用する、人間とAIのシナジスティックな2段階パイプラインを設計する。
このパイプラインでは、人間が検証されたアノテーションを提供し、大きな言語モデルが人間のガイダンスに基づいて自動キュレーションを実行する。
この選好混合をトレーニングし、SynPref-40Mから600万の選好ペアを慎重にキュレートしたサブセットに基づいて、0.6Bから8Bパラメータの8つの報奨モデルからなるSkywork-Reward-V2を導入する。
我々は、Skywork-Reward-V2が、人間の好み、客観的な正当性、安全性、スタイリスティックなバイアスへの耐性、そしてベスト・オブ・Nのスケーリングなど、幅広い能力で汎用性があり、7つの主要な報酬モデルベンチマークで最先端のパフォーマンスを達成することを実証した。
アブレーション研究により,本手法の有効性は,データスケールだけでなく,高品質なキュレーションからもたらされることが明らかとなった。
Skywork-Reward-V2シリーズは、既存の選好データセットの未発表の可能性を強調し、人間とAIのキュレーションのシナジーがデータ品質を大幅に向上させる方法を示している。
関連論文リスト
- How Good Are Synthetic Requirements ? Evaluating LLM-Generated Datasets for AI4RE [0.5156484100374059]
本稿では,合成要求データを生成するための改良された製品ラインアプローチを提案する。
提案する4つの研究課題は,データ品質にどのような影響を及ぼすか,また,自動的なプロンプト最適化,およびポストジェネレーションのキュレーションについて検討する。
以上の結果から, 人工的な要件は, 特定のタスクにおいて, 人為的な要件と一致し, より優れる可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-26T10:52:07Z) - Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning [15.61345581743979]
次世代マルチモーダル推論モデルであるSkywork R1V2を提案する。
コアとなるR1V2では、ハイブリッド強化学習パラダイムが導入されている。
論文 参考訳(メタデータ) (2025-04-23T12:24:10Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。