論文の概要: DeDPO: Debiased Direct Preference Optimization for Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.06195v1
- Date: Thu, 05 Feb 2026 21:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.110511
- Title: DeDPO: Debiased Direct Preference Optimization for Diffusion Models
- Title(参考訳): DeDPO:拡散モデルに対するバイアスド直接選好最適化
- Authors: Khiem Pham, Quang Nguyen, Tung Nguyen, Jingsen Zhu, Michele Santacatterina, Dimitris Metaxas, Ramin Zabih,
- Abstract要約: コスト効率のよい合成AIフィードバックによって注釈付けされたラベルなしペアの大きなコーパスで、限られた人間のデータを増やす半教師付きフレームワークを提案する。
本稿では, 因果推定から脱バイアス推定手法をDPOの目的に一意に統合した脱バイアスDPO(Debiased DPO)を提案する。
実験により、DeDPOは合成ラベリング手法のバリエーションに頑健であり、完全に人間のラベル付きデータに基づいて訓練されたモデルの理論的上限を超え、時折適合する性能を達成することが示されている。
- 参考スコア(独自算出の注目度): 13.068043495097378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as a predominant alignment method for diffusion models, facilitating off-policy training without explicit reward modeling. However, its reliance on large-scale, high-quality human preference labels presents a severe cost and scalability bottleneck. To overcome this, We propose a semi-supervised framework augmenting limited human data with a large corpus of unlabeled pairs annotated via cost-effective synthetic AI feedback. Our paper introduces Debiased DPO (DeDPO), which uniquely integrates a debiased estimation technique from causal inference into the DPO objective. By explicitly identifying and correcting the systematic bias and noise inherent in synthetic annotators, DeDPO ensures robust learning from imperfect feedback sources, including self-training and Vision-Language Models (VLMs). Experiments demonstrate that DeDPO is robust to the variations in synthetic labeling methods, achieving performance that matches and occasionally exceeds the theoretical upper bound of models trained on fully human-labeled data. This establishes DeDPO as a scalable solution for human-AI alignment using inexpensive synthetic supervision.
- Abstract(参考訳): 直接選好最適化(DPO)は拡散モデルの主要なアライメント手法として登場し、明示的な報酬モデリングを伴わずに政治外の訓練を容易にする。
しかし、大規模で高品質な人間の嗜好ラベルに依存しているため、非常にコストとスケーラビリティのボトルネックが生じる。
これを解決するために、コスト効率のよい合成AIフィードバックによって注釈付けされたラベルなしペアの大きなコーパスで、限られた人間のデータを増やす半教師付きフレームワークを提案する。
本稿では, 因果推定から脱バイアス推定手法をDPOの目的に一意に統合した脱バイアスDPO(Debiased DPO)を提案する。
合成アノテータに固有の体系的バイアスとノイズを明示的に識別し、修正することにより、DeDPOは自己学習や視覚言語モデル(VLM)を含む不完全なフィードバック源からの堅牢な学習を保証する。
実験により、DeDPOは合成ラベリング手法のバリエーションに頑健であり、完全に人間のラベル付きデータに基づいて訓練されたモデルの理論的上限を超え、時折適合する性能を達成することが示されている。
これにより、DeDPOは安価な合成監督技術を用いて、人間-AIアライメントのためのスケーラブルなソリューションとして確立される。
関連論文リスト
- Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。