論文の概要: When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets
- arxiv url: http://arxiv.org/abs/2511.10985v1
- Date: Fri, 14 Nov 2025 06:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.448274
- Title: When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets
- Title(参考訳): データがアルゴリズムであるとき--選好最適化データセットの体系的研究とキュレーション-
- Authors: Aladin Djuhera, Farhan Ahmed, Swanand Ravindra Kadhe, Syed Zawad, Heiko Ludwig, Holger Boche,
- Abstract要約: 本稿では,オープンソースDPOコーパスの包括的データ中心分析について紹介する。
Magpieフレームワークを利用して、各サンプルにタスクカテゴリ、入力品質、好みの報酬をアノテートします。
これにより、データセット間の好みの質をスケーラブルできめ細かい検査が可能になり、報酬マージンの構造的および質的な相違が明らかになる。
- 参考スコア(独自算出の注目度): 29.94723846950853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) is a central objective of post-training, often achieved through reward modeling and reinforcement learning methods. Among these, direct preference optimization (DPO) has emerged as a widely adopted technique that fine-tunes LLMs on preferred completions over less favorable ones. While most frontier LLMs do not disclose their curated preference pairs, the broader LLM community has released several open-source DPO datasets, including TuluDPO, ORPO, UltraFeedback, HelpSteer, and Code-Preference-Pairs. However, systematic comparisons remain scarce, largely due to the high computational cost and the lack of rich quality annotations, making it difficult to understand how preferences were selected, which task types they span, and how well they reflect human judgment on a per-sample level. In this work, we present the first comprehensive, data-centric analysis of popular open-source DPO corpora. We leverage the Magpie framework to annotate each sample for task category, input quality, and preference reward, a reward-model-based signal that validates the preference order without relying on human annotations. This enables a scalable, fine-grained inspection of preference quality across datasets, revealing structural and qualitative discrepancies in reward margins. Building on these insights, we systematically curate a new DPO mixture, UltraMix, that draws selectively from all five corpora while removing noisy or redundant samples. UltraMix is 30% smaller than the best-performing individual dataset yet exceeds its performance across key benchmarks. We publicly release all annotations, metadata, and our curated mixture to facilitate future research in data-centric preference optimization.
- Abstract(参考訳): 大規模言語モデル(LLM)の調整は後学習の中心的目的であり、報酬モデリングと強化学習手法によってしばしば達成される。
これらのうち、直接選好最適化(DPO)は、あまり好ましくないものよりも好みの完備度を微調整する手法として広く採用されている。
ほとんどのフロンティアLLMは、キュレートされた好みペアを公開していないが、より広範なLLMコミュニティは、TuluDPO、ORPO、UltraFeedback、HelpSteer、Code-Preference-Pairsなど、いくつかのオープンソースDPOデータセットをリリースした。
しかし、体系的な比較は、主に計算コストが高く、リッチなアノテーションが欠如しているため、どのように選好が選択されたか、どのタスクタイプにまたがっているか、そしてそれらがサンプルごとの人間の判断をいかに反映しているかを理解するのが困難である。
本稿では,オープンソースDPOコーパスの包括的データ中心分析について紹介する。
我々はMagpieフレームワークを利用して、タスクカテゴリ、入力品質、嗜好報酬の各サンプルにアノテートする。
これにより、データセット間の好みの質をスケーラブルできめ細かい検査が可能になり、報酬マージンの構造的および質的な相違が明らかになる。
これらの知見に基づいて、5つのコーパスから選択的に抽出し、ノイズや冗長なサンプルを除去する新しいDPO混合物であるUltraMixを体系的にキュレートする。
UltraMixは、最高のパフォーマンスの個々のデータセットよりも30%小さいが、主要なベンチマークでパフォーマンスを上回っている。
データ中心の好み最適化の今後の研究を容易にするため、アノテーション、メタデータ、およびキュレートされた混合物を公開します。
関連論文リスト
- Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap [13.89078939095465]
本稿では,DPOの暗黙的な報酬機構を基盤とした,嗜好データセットの難易度に基づく新たなデータ選択手法を提案する。
このアプローチは、複数のデータセットとアライメントタスクで、5つの強力なベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-06T07:24:14Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。