論文の概要: FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.19453v1
- Date: Sun, 28 Jul 2024 10:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:02:25.104747
- Title: FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models
- Title(参考訳): FIND:拡散モデルに対する政策最適化による微調整初期雑音分布
- Authors: Changgu Chen, Libing Yang, Xiaoyan Yang, Lianggangxu Chen, Gaoqi He, CHangbo Wang, Yang Li,
- Abstract要約: 本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
- 参考スコア(独自算出の注目度): 10.969811500333755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large-scale pre-trained diffusion models have demonstrated their outstanding capabilities in image and video generation tasks. However, existing models tend to produce visual objects commonly found in the training dataset, which diverges from user input prompts. The underlying reason behind the inaccurate generated results lies in the model's difficulty in sampling from specific intervals of the initial noise distribution corresponding to the prompt. Moreover, it is challenging to directly optimize the initial distribution, given that the diffusion process involves multiple denoising steps. In this paper, we introduce a Fine-tuning Initial Noise Distribution (FIND) framework with policy optimization, which unleashes the powerful potential of pre-trained diffusion networks by directly optimizing the initial distribution to align the generated contents with user-input prompts. To this end, we first reformulate the diffusion denoising procedure as a one-step Markov decision process and employ policy optimization to directly optimize the initial distribution. In addition, a dynamic reward calibration module is proposed to ensure training stability during optimization. Furthermore, we introduce a ratio clipping algorithm to utilize historical data for network training and prevent the optimized distribution from deviating too far from the original policy to restrain excessive optimization magnitudes. Extensive experiments demonstrate the effectiveness of our method in both text-to-image and text-to-video tasks, surpassing SOTA methods in achieving consistency between prompts and the generated content. Our method achieves 10 times faster than the SOTA approach. Our homepage is available at \url{https://github.com/vpx-ecnu/FIND-website}.
- Abstract(参考訳): 近年、大規模な事前学習拡散モデルが画像生成や映像生成において際立った能力を発揮している。
しかし、既存のモデルはトレーニングデータセットで一般的に見られる視覚オブジェクトを生成する傾向があり、これはユーザの入力プロンプトから分岐する。
不正確な生成結果の背後にある根本的な理由は、プロンプトに対応する初期雑音分布の特定の間隔からサンプリングすることの難しさにある。
さらに、拡散過程が複数の段階を含むことを考えると、初期分布を直接最適化することは困難である。
本稿では、初期分布を直接最適化し、生成したコンテンツをユーザインプットプロンプトと整合させることにより、事前学習した拡散ネットワークの強力なポテンシャルを解放するFIND(Fincent-tuning Initial Noise Distribution)フレームワークを提案する。
この目的のために,まず1ステップのマルコフ決定プロセスとして拡散分極手順を再構成し,初期分布を直接最適化するためにポリシー最適化を利用する。
また,最適化時のトレーニング安定性を確保するため,動的報酬校正モジュールを提案する。
さらに、ネットワークトレーニングに履歴データを活用するための比率クリッピングアルゴリズムを導入し、最適化された分布が元の方針から逸脱しすぎないようにし、過度な最適化の規模を抑える。
テキスト・ツー・イメージ・タスクとテキスト・ツー・ビデオタスクの両方において,提案手法の有効性を実証し,プロンプトと生成されたコンテンツ間の整合性を実現するためのSOTA手法を超越した実験を行った。
提案手法はSOTA法よりも10倍高速である。
私たちのホームページは \url{https://github.com/vpx-ecnu/FIND-website} で閲覧できます。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization [22.546989373687655]
本稿では,よりインテリジェントで微分可能なプルーナーを用いて,効率的な拡散モデルを導出する新しいプルーニング法を提案する。
提案手法はSD-1.5の4.4倍の高速化を実現し,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T12:18:24Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。
我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Align Your Steps: Optimizing Sampling Schedules in Diffusion Models [63.927438959502226]
拡散モデル(DM)は、視覚領域以降における最先端の生成モデリングアプローチとして確立されている。
DMの重大な欠点は、サンプリング速度の遅いことであり、大規模なニューラルネットワークによる多くのシーケンシャルな関数評価に依存している。
本稿では,DMのサンプリングスケジュールを高品質な出力に最適化する汎用的,原理的な手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T18:18:41Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Implicit Diffusion: Efficient Optimization through Stochastic Sampling [46.049117719591635]
パラメータ化拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。
本稿では,これらのプロセスの1次最適化のための一般的なフレームワークについて紹介する。
エネルギーベースモデルのトレーニングや拡散の微調整に応用する。
論文 参考訳(メタデータ) (2024-02-08T08:00:11Z) - Diffusion Models with Deterministic Normalizing Flow Priors [23.212848643552395]
フローと拡散モデルを正規化する手法であるDiNof(textbfDi$ffusion with $textbfNo$rmalizing $textbff$low priors)を提案する。
標準画像生成データセットの実験は、既存の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2023-09-03T21:26:56Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - PriorGrad: Improving Conditional Denoising Diffusion Models with
Data-Driven Adaptive Prior [103.00403682863427]
条件拡散モデルの効率を改善するために, PreGrad を提案する。
PriorGradはデータとパラメータの効率を向上し、品質を向上する。
論文 参考訳(メタデータ) (2021-06-11T14:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。