論文の概要: PC-Diffusion: Aligning Diffusion Models with Human Preferences via Preference Classifier
- arxiv url: http://arxiv.org/abs/2511.07806v1
- Date: Wed, 12 Nov 2025 01:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.486295
- Title: PC-Diffusion: Aligning Diffusion Models with Human Preferences via Preference Classifier
- Title(参考訳): PC拡散: 選好分類器による人選好拡散モデルの調整
- Authors: Shaomeng Wang, He Wang, Xiaolu Wei, Longquan Dai, Jinhui Tang,
- Abstract要約: 拡散モデル(PC拡散)における人間の嗜好アライメントのための新しい枠組みを提案する。
PC-Diffusionは軽量でトレーニング可能なPreferenceを使用して、サンプル間の相対的な嗜好を直接モデル化する。
そこで,PC-Diffusion は DPO に匹敵する選好整合性を実現し,トレーニングコストを大幅に削減し,効率の良い選好誘導生成を可能にすることを示す。
- 参考スコア(独自算出の注目度): 36.21450058652141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in conditional image generation, yet their outputs often remain misaligned with human preferences. To address this, recent work has applied Direct Preference Optimization (DPO) to diffusion models, yielding significant improvements.~However, DPO-like methods exhibit two key limitations: 1) High computational cost,due to the entire model fine-tuning; 2) Sensitivity to reference model quality}, due to its tendency to introduce instability and bias. To overcome these limitations, we propose a novel framework for human preference alignment in diffusion models (PC-Diffusion), using a lightweight, trainable Preference Classifier that directly models the relative preference between samples. By restricting preference learning to this classifier, PC-Diffusion decouples preference alignment from the generative model, eliminating the need for entire model fine-tuning and reference model reliance.~We further provide theoretical guarantees for PC-Diffusion:1) PC-Diffusion ensures that the preference-guided distributions are consistently propagated across timesteps. 2)The training objective of the preference classifier is equivalent to DPO, but does not require a reference model.3) The proposed preference-guided correction can progressively steer generation toward preference-aligned regions.~Empirical results show that PC-Diffusion achieves comparable preference consistency to DPO while significantly reducing training costs and enabling efficient and stable preference-guided generation.
- Abstract(参考訳): 拡散モデルは条件付き画像生成において顕著な成功を収めてきたが、その出力はしばしば人間の好みと一致しない。
この問題に対処するため、最近の研究は拡散モデルに直接選好最適化(DPO)を適用し、大幅な改善をもたらした。
しかし、DPOライクなメソッドには2つの重要な制限がある。
1) モデル全体の微調整による高計算コスト
2) モデル品質に対する感度は、不安定性やバイアスをもたらす傾向にあるためである。
これらの制約を克服するために,本研究では,サンプル間の相対的嗜好を直接モデル化する軽量でトレーニング可能な選好分類器を用いて,拡散モデル(PC拡散)における人間の選好アライメントのための新しいフレームワークを提案する。
選好学習をこの分類器に限定することにより、PC-Diffusionは生成モデルから選好アライメントを分離し、モデル全体の微調整と参照モデル依存を不要にする。
1) PC拡散は、優先誘導分布が時間経過で一貫して伝播することを保証します。
2) 選好分類器の訓練目的はDPOと等価であるが,参照モデルを必要としない。
実験の結果,PC-Diffusion は DPO に匹敵する選好整合性を実現し,トレーニングコストを大幅に削減し,効率よく安定した選好誘導生成を可能にすることがわかった。
関連論文リスト
- Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models [32.586647934400105]
既存の選好アライメント手法は、無条件/負条件の出力を扱う重要な役割を欠いていると論じる。
我々は、ネガティブな嗜好に特化して訓練されたモデルを訓練する、単純だが汎用的な効果的なアプローチを提案する。
提案手法は,SD1.5,SDXL,動画拡散モデル,選好最適化モデルなどのモデルとシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-16T13:38:23Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。