論文の概要: Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback
- arxiv url: http://arxiv.org/abs/2510.18353v1
- Date: Tue, 21 Oct 2025 07:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.119322
- Title: Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback
- Title(参考訳): 意図しないユーザフィードバックからの拡散モデルのランク付けに基づく選好最適化
- Authors: Yi-Lun Wu, Bo-Kai Ruan, Chiang Tseng, Hong-Han Shuai,
- Abstract要約: Diffusion Denoising Ranking Optimization (Diffusion-DRO) は、逆強化学習に基づく新しい好み学習フレームワークである。
拡散DROは、選好学習をランキング問題としてキャストすることで、報酬モデルへの依存を除去する。
オフラインの専門家によるデモとオンラインポリシー生成のネガティブなサンプルを統合することで、人間の好みを効果的に捉えることができる。
- 参考スコア(独自算出の注目度): 28.40216934244641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct preference optimization (DPO) methods have shown strong potential in aligning text-to-image diffusion models with human preferences by training on paired comparisons. These methods improve training stability by avoiding the REINFORCE algorithm but still struggle with challenges such as accurately estimating image probabilities due to the non-linear nature of the sigmoid function and the limited diversity of offline datasets. In this paper, we introduce Diffusion Denoising Ranking Optimization (Diffusion-DRO), a new preference learning framework grounded in inverse reinforcement learning. Diffusion-DRO removes the dependency on a reward model by casting preference learning as a ranking problem, thereby simplifying the training objective into a denoising formulation and overcoming the non-linear estimation issues found in prior methods. Moreover, Diffusion-DRO uniquely integrates offline expert demonstrations with online policy-generated negative samples, enabling it to effectively capture human preferences while addressing the limitations of offline data. Comprehensive experiments show that Diffusion-DRO delivers improved generation quality across a range of challenging and unseen prompts, outperforming state-of-the-art baselines in both both quantitative metrics and user studies. Our source code and pre-trained models are available at https://github.com/basiclab/DiffusionDRO.
- Abstract(参考訳): 直接選好最適化(DPO)法は、ペア比較によるトレーニングにより、テキストと画像の拡散モデルと人間の選好との整合性を強く示している。
これらの手法は、REINFORCEアルゴリズムを回避してトレーニング安定性を向上させるが、Sigmoid関数の非線形性やオフラインデータセットの限られた多様性による画像確率の正確な推定といった課題に苦慮している。
本稿では,逆強化学習に基づく新たな選好学習フレームワークであるDiffusion Denoising Ranking Optimization (Diffusion-DRO)を紹介する。
拡散DROは、選好学習をランク付け問題としてキャストすることで報酬モデルへの依存を排除し、トレーニング対象をデノナイズ形式に単純化し、従来手法で見られた非線形推定問題を克服する。
さらに、Diffusion-DROはオフライン専門家のデモンストレーションをオンラインポリシー生成のネガティブなサンプルと一意に統合することで、オフラインデータの制限に対処しながら、人間の好みを効果的に捉えることができる。
総合的な実験によると、Diffusion-DROは、さまざまな困難かつ目に見えないプロンプトにわたって、生成品質を向上し、定量的メトリクスとユーザスタディの両方において、最先端のベースラインを上回っている。
ソースコードと事前トレーニングされたモデルはhttps://github.com/basiclab/DiffusionDRO.comで公開されています。
関連論文リスト
- Deep Leakage with Generative Flow Matching Denoiser [54.05993847488204]
再建プロセスに先立って生成フローマッチング(FM)を組み込んだ新しい深部リーク攻撃(DL)を導入する。
当社のアプローチは、ピクセルレベル、知覚的、特徴に基づく類似度測定において、最先端の攻撃よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-21T14:51:01Z) - RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models [14.093802378976315]
拡散型リモートセンシング(RS)生成基盤モデルは、多量のグローバルな代表データに依存している。
本稿では,高プルーニング率で高品質なサブセットを迅速に選択する,トレーニングフリーな2段階データプルーニング手法を提案する。
実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-12-29T06:44:06Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Reconciling Stochastic and Deterministic Strategies for Zero-shot Image Restoration using Diffusion Model in Dual [47.141811103506036]
我々はDualにおけるReconciling Model(RDMD)と呼ばれる新しいゼロショット画像復元手法を提案する。
RDMDはbftextsingle事前学習拡散モデルのみを使用してテキスト2正規化器を構成する。
提案手法は,FFHQ と ImageNet の両方のデータセットに対する既存手法と比較して,優れた結果が得られる。
論文 参考訳(メタデータ) (2025-03-03T08:25:22Z) - Diffusion Classifier-Driven Reward for Offline Preference-based Reinforcement Learning [45.95668702930697]
拡散選好に基づく報酬獲得法(DPR)を提案する。
DPRは、段階的嗜好に基づく報酬獲得を二項分類として直接扱い、拡散分類器の堅牢性を利用して段階的報酬を識別的に推測する。
また,Diffusion Preference-based Reward (C-DPR)を提案する。
論文 参考訳(メタデータ) (2025-03-03T03:49:38Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。