論文の概要: Aligning Few-Step Diffusion Models with Dense Reward Difference Learning
- arxiv url: http://arxiv.org/abs/2411.11727v1
- Date: Mon, 18 Nov 2024 16:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:42.167970
- Title: Aligning Few-Step Diffusion Models with Dense Reward Difference Learning
- Title(参考訳): ディエンス・リワード差分学習を用いた数ステップ拡散モデルの調整
- Authors: Ziyi Zhang, Li Shen, Sen Zhang, Deheng Ye, Yong Luo, Miaojing Shi, Bo Du, Dacheng Tao,
- Abstract要約: Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 81.85515625591884
- License:
- Abstract: Aligning diffusion models with downstream objectives is essential for their practical applications. However, standard alignment methods often struggle with step generalization when directly applied to few-step diffusion models, leading to inconsistent performance across different denoising step scenarios. To address this, we introduce Stepwise Diffusion Policy Optimization (SDPO), a novel alignment method tailored for few-step diffusion models. Unlike prior approaches that rely on a single sparse reward from only the final step of each denoising trajectory for trajectory-level optimization, SDPO incorporates dense reward feedback at every intermediate step. By learning the differences in dense rewards between paired samples, SDPO facilitates stepwise optimization of few-step diffusion models, ensuring consistent alignment across all denoising steps. To promote stable and efficient training, SDPO introduces an online reinforcement learning framework featuring several novel strategies designed to effectively exploit the stepwise granularity of dense rewards. Experimental results demonstrate that SDPO consistently outperforms prior methods in reward-based alignment across diverse step configurations, underscoring its robust step generalization capabilities. Code is avaliable at https://github.com/ZiyiZhang27/sdpo.
- Abstract(参考訳): 下流の目的を持つ拡散モデルの調整は、その実践的応用に不可欠である。
しかしながら、標準的なアライメント手法は、数ステップの拡散モデルに直接適用した場合、ステップの一般化に苦慮することが多く、異なる段階のシナリオで不整合のパフォーマンスをもたらす。
そこで本研究では,数段階拡散モデルに適したアライメント手法であるSDPO(Stepwise Diffusion Policy Optimization)を提案する。
軌道レベルの最適化のために各軌道の最終段階のみから1つのスパース報酬に依存する従来のアプローチとは異なり、SDPOは各中間ステップに密度の高い報酬フィードバックを組み込む。
ペア化されたサンプル間の密度の高い報酬の差を学習することにより、SDPOは数ステップの拡散モデルの段階的に最適化し、各ステップの整合性を確保する。
SDPOは、安定的で効率的なトレーニングを促進するために、高密度報酬の段階的な粒度を効果的に活用するために設計された、いくつかの新しい戦略を特徴とするオンライン強化学習フレームワークを導入している。
実験の結果、SDPOは様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れており、堅牢なステップ一般化能力を示している。
コードはhttps://github.com/ZiyiZhang27/sdpo.comで検証可能である。
関連論文リスト
- Learned Reference-based Diffusion Sampling for multi-modal distributions [2.1383136715042417]
本稿では,学習参照に基づく拡散サンプリング(LRDS)について紹介する。
LRDSは、高密度空間領域にあるサンプルの参照拡散モデルを学ぶことによって、2段階で進行する。
LRDSは、様々な難解な分布上の競合するアルゴリズムと比較して、目標分布に関する事前知識を最大限に活用することが実験的に実証された。
論文 参考訳(メタデータ) (2024-10-25T10:23:34Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Unleashing the Power of Meta-tuning for Few-shot Generalization Through Sparse Interpolated Experts [33.58165081033569]
Sparse MetA-Tuning (SMAT) はスパース・ミックス・オブ・エキスパート・アプローチにインスパイアされた手法である。
SMATはOOD感度を克服し、ビジョンファウンデーションモデルの転送能力を高めることを約束する。
論文 参考訳(メタデータ) (2024-03-13T12:46:03Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。