論文の概要: Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision
- arxiv url: http://arxiv.org/abs/2512.23426v1
- Date: Mon, 29 Dec 2025 12:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.496879
- Title: Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision
- Title(参考訳): ステップワイドコントラストポリシーペアスーパービジョンによる直接拡散スコア設定最適化
- Authors: Dohyun Kim, Seungwoo Lyu, Seung Wook Kim, Paul Hongsuck Seo,
- Abstract要約: 拡散モデルは、テキスト・ツー・イメージ合成のような生成タスクにおいて印象的な結果を得た。
彼らはしばしば、アウトプットを曖昧なユーザ意図と完全に整合させ、一貫した美的品質を維持するのに苦労する。
既存の嗜好ベースのトレーニング手法は、これらの問題に対処するのに役立つが、コストが高く、潜在的にノイズの多い人間のデータセットに依存している。
- 参考スコア(独自算出の注目度): 14.612317970237436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved impressive results in generative tasks such as text-to-image synthesis, yet they often struggle to fully align outputs with nuanced user intent and maintain consistent aesthetic quality. Existing preference-based training methods like Diffusion Direct Preference Optimization help address these issues but rely on costly and potentially noisy human-labeled datasets. In this work, we introduce Direct Diffusion Score Preference Optimization (DDSPO), which directly derives per-timestep supervision from winning and losing policies when such policies are available. Unlike prior methods that operate solely on final samples, DDSPO provides dense, transition-level signals across the denoising trajectory. In practice, we avoid reliance on labeled data by automatically generating preference signals using a pretrained reference model: we contrast its outputs when conditioned on original prompts versus semantically degraded variants. This practical strategy enables effective score-space preference supervision without explicit reward modeling or manual annotations. Empirical results demonstrate that DDSPO improves text-image alignment and visual quality, outperforming or matching existing preference-based methods while requiring significantly less supervision. Our implementation is available at: https://dohyun-as.github.io/DDSPO
- Abstract(参考訳): 拡散モデルは、テキスト・ツー・イメージ合成のような生成タスクにおいて印象的な結果を得たが、出力を曖昧なユーザ意図で完全に整合させ、一貫した美的品質を維持するのに苦労することが多い。
Diffusion Direct Preference Optimizationのような既存の嗜好ベースのトレーニング手法は、これらの問題に対処するのに役立つが、高価でノイズの多い人間のラベル付きデータセットに依存している。
本研究では,DDSPO(Direct Diffusion Score Preference Optimization)を導入し,これらのポリシーが利用可能であれば,タイムステップごとの監督を勝ち負けから直接引き出す。
最終サンプルのみで動作する従来の方法とは異なり、DDSPOは演示軌道を横断する密度の高い遷移レベル信号を提供する。
実際には、事前訓練された参照モデルを用いて、ラベル付きデータへの依存を回避し、その出力を元のプロンプトに条件付けした場合と意味的に劣化した変種との対比を行う。
この実践的戦略は、明示的な報酬モデリングや手動のアノテーションを使わずに、効果的なスコア空間選好の監督を可能にする。
実験の結果,DDSPOはテキスト画像のアライメントや視覚的品質を向上し,既存の嗜好に基づく手法を向上あるいは適合させると同時に,監督の大幅な削減を図っている。
私たちの実装は、https://dohyun-as.github.io/DDSPOで利用可能です。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control [25.219524290912048]
オフライン強化学習を2段階最適化問題として定式化する。
まず、報酬のない行動データセットに関する表現的生成ポリシーを事前訓練し、次にこれらのポリシーを微調整して、Q値のようなタスク固有のアノテーションと整合させる。
この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。
論文 参考訳(メタデータ) (2024-07-12T06:32:36Z) - Prototypical Contrastive Learning through Alignment and Uniformity for
Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。
具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。
明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文 参考訳(メタデータ) (2024-02-03T08:19:26Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。