論文の概要: Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
- arxiv url: http://arxiv.org/abs/2410.07303v1
- Date: Wed, 09 Oct 2024 17:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:32:17.830821
- Title: Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
- Title(参考訳): 直流拡散:直流の場合、直線性は必要ではない
- Authors: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li,
- Abstract要約: 拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
- 参考スコア(独自算出の注目度): 65.51671121528858
- License:
- Abstract: Diffusion models have greatly improved visual generation but are hindered by slow generation speed due to the computationally intensive nature of solving generative ODEs. Rectified flow, a widely recognized solution, improves generation speed by straightening the ODE path. Its key components include: 1) using the diffusion form of flow-matching, 2) employing $\boldsymbol v$-prediction, and 3) performing rectification (a.k.a. reflow). In this paper, we argue that the success of rectification primarily lies in using a pretrained diffusion model to obtain matched pairs of noise and samples, followed by retraining with these matched noise-sample pairs. Based on this, components 1) and 2) are unnecessary. Furthermore, we highlight that straightness is not an essential training target for rectification; rather, it is a specific case of flow-matching models. The more critical training target is to achieve a first-order approximate ODE path, which is inherently curved for models like DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion, which generalizes the design space and application scope of rectification to encompass the broader category of diffusion models, rather than being restricted to flow-matching models. We validate our method on Stable Diffusion v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the training procedure of rectified flow-based previous works (e.g., InstaFlow) but also achieves superior performance with even lower training cost. Our code is available at https://github.com/G-U-N/Rectified-Diffusion.
- Abstract(参考訳): 拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
主な構成要素は以下のとおりである。
1) フローマッチングの拡散形式を用いる。
2)$\boldsymbol v$-predictionを採用し、
3) 整流(再流)を行う。
そこで本稿では,事前学習した拡散モデルを用いて,一致したノイズとサンプルのペアを得るとともに,一致したノイズとサンプルのペアを再学習する手法を提案する。
これに基づいて構成する。
1)と
2)不要。
さらに, 直線性は整合に不可欠な訓練対象ではなく, 流れマッチングモデルの特定の事例であることも強調する。
より重要なトレーニングターゲットは、DDPMやSub-VPのようなモデルに対して本質的に湾曲した一階近似ODEパスを達成することである。
この知見に基づいて、フローマッチングモデルに制限されるのではなく、より広い範囲の拡散モデルを含むように、設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
安定拡散v1-5と安定拡散XLについて検証した。
本手法は,修正フローベース以前の作業(例えばInstaFlow)のトレーニング手順を大幅に単純化するだけでなく,トレーニングコストの低減を図り,優れたパフォーマンスを実現する。
私たちのコードはhttps://github.com/G-U-N/Rectified-Diffusion.comで公開されています。
関連論文リスト
- Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator [73.80050807279461]
Piecewise Rectified Flow (PeRFlow) は拡散モデルの高速化のためのフローベース手法である。
PeRFlowは数ステップの世代で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-13T07:10:53Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Common Diffusion Noise Schedules and Sample Steps are Flawed [7.802281665410233]
拡散ノイズスケジュールは、信号対雑音比がゼロになる最後の段階を強制しない。
拡散サンプリングの実装は、最後の段階から始まりません。
既存の実装において、欠陥のある設計が真の問題を引き起こすことを示す。
論文 参考訳(メタデータ) (2023-05-15T12:21:08Z) - Generative Modeling with Flow-Guided Density Ratio Learning [12.192867460641835]
Flow-Guided Density Ratio Learning (FDRL)は、生成モデルに対するシンプルでスケーラブルなアプローチである。
我々は,FDRLが128時間128ドルの高次元の画像を生成するとともに,既存の勾配流ベースラインを定量的なベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-07T07:55:52Z) - Stable Target Field for Reduced Variance Score Estimation in Diffusion
Models [5.9115407007859755]
拡散モデルは、固定された前方拡散過程を反転させてサンプルを生成する。
このような分散の源泉は、中間雑音分散スケールの取り扱いにあると論じる。
より安定したトレーニングターゲットとして重み付けされた条件スコアを計算するために使用する参照バッチを組み込むことにより、この問題を修復することを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:57:01Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - Flow Straight and Fast: Learning to Generate and Transfer Data with
Rectified Flow [32.459587479351846]
我々は、(神経)常微分方程式(ODE)モデルを学ぶための驚くほど単純なアプローチである整流流を提示する。
補正フローは画像生成,画像から画像への変換,ドメイン適応に優しく作用することを示す。
論文 参考訳(メタデータ) (2022-09-07T08:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。