論文の概要: Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback
- arxiv url: http://arxiv.org/abs/2510.18353v1
- Date: Tue, 21 Oct 2025 07:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.119322
- Title: Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback
- Title(参考訳): 意図しないユーザフィードバックからの拡散モデルのランク付けに基づく選好最適化
- Authors: Yi-Lun Wu, Bo-Kai Ruan, Chiang Tseng, Hong-Han Shuai,
- Abstract要約: Diffusion Denoising Ranking Optimization (Diffusion-DRO) は、逆強化学習に基づく新しい好み学習フレームワークである。
拡散DROは、選好学習をランキング問題としてキャストすることで、報酬モデルへの依存を除去する。
オフラインの専門家によるデモとオンラインポリシー生成のネガティブなサンプルを統合することで、人間の好みを効果的に捉えることができる。
- 参考スコア(独自算出の注目度): 28.40216934244641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct preference optimization (DPO) methods have shown strong potential in aligning text-to-image diffusion models with human preferences by training on paired comparisons. These methods improve training stability by avoiding the REINFORCE algorithm but still struggle with challenges such as accurately estimating image probabilities due to the non-linear nature of the sigmoid function and the limited diversity of offline datasets. In this paper, we introduce Diffusion Denoising Ranking Optimization (Diffusion-DRO), a new preference learning framework grounded in inverse reinforcement learning. Diffusion-DRO removes the dependency on a reward model by casting preference learning as a ranking problem, thereby simplifying the training objective into a denoising formulation and overcoming the non-linear estimation issues found in prior methods. Moreover, Diffusion-DRO uniquely integrates offline expert demonstrations with online policy-generated negative samples, enabling it to effectively capture human preferences while addressing the limitations of offline data. Comprehensive experiments show that Diffusion-DRO delivers improved generation quality across a range of challenging and unseen prompts, outperforming state-of-the-art baselines in both both quantitative metrics and user studies. Our source code and pre-trained models are available at https://github.com/basiclab/DiffusionDRO.
- Abstract(参考訳): 直接選好最適化(DPO)法は、ペア比較によるトレーニングにより、テキストと画像の拡散モデルと人間の選好との整合性を強く示している。
これらの手法は、REINFORCEアルゴリズムを回避してトレーニング安定性を向上させるが、Sigmoid関数の非線形性やオフラインデータセットの限られた多様性による画像確率の正確な推定といった課題に苦慮している。
本稿では,逆強化学習に基づく新たな選好学習フレームワークであるDiffusion Denoising Ranking Optimization (Diffusion-DRO)を紹介する。
拡散DROは、選好学習をランク付け問題としてキャストすることで報酬モデルへの依存を排除し、トレーニング対象をデノナイズ形式に単純化し、従来手法で見られた非線形推定問題を克服する。
さらに、Diffusion-DROはオフライン専門家のデモンストレーションをオンラインポリシー生成のネガティブなサンプルと一意に統合することで、オフラインデータの制限に対処しながら、人間の好みを効果的に捉えることができる。
総合的な実験によると、Diffusion-DROは、さまざまな困難かつ目に見えないプロンプトにわたって、生成品質を向上し、定量的メトリクスとユーザスタディの両方において、最先端のベースラインを上回っている。
ソースコードと事前トレーニングされたモデルはhttps://github.com/basiclab/DiffusionDRO.comで公開されています。
関連論文リスト
- Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Reconciling Stochastic and Deterministic Strategies for Zero-shot Image Restoration using Diffusion Model in Dual [47.141811103506036]
我々はDualにおけるReconciling Model(RDMD)と呼ばれる新しいゼロショット画像復元手法を提案する。
RDMDはbftextsingle事前学習拡散モデルのみを使用してテキスト2正規化器を構成する。
提案手法は,FFHQ と ImageNet の両方のデータセットに対する既存手法と比較して,優れた結果が得られる。
論文 参考訳(メタデータ) (2025-03-03T08:25:22Z) - Diffusion Classifier-Driven Reward for Offline Preference-based Reinforcement Learning [45.95668702930697]
拡散選好に基づく報酬獲得法(DPR)を提案する。
DPRは、段階的嗜好に基づく報酬獲得を二項分類として直接扱い、拡散分類器の堅牢性を利用して段階的報酬を識別的に推測する。
また,Diffusion Preference-based Reward (C-DPR)を提案する。
論文 参考訳(メタデータ) (2025-03-03T03:49:38Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。