論文の概要: Text-to-Image Rectified Flow as Plug-and-Play Priors
- arxiv url: http://arxiv.org/abs/2406.03293v2
- Date: Tue, 25 Jun 2024 02:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:39:42.350702
- Title: Text-to-Image Rectified Flow as Plug-and-Play Priors
- Title(参考訳): プラグ・アンド・プレイの先駆者としてのテキスト・ツー・イメージ整形流
- Authors: Xiaofeng Yang, Cheng Chen, Xulei Yang, Fayao Liu, Guosheng Lin,
- Abstract要約: 整流流は、ソースからターゲット分布への線形進行を強制する新しい生成モデルのクラスである。
補正フローアプローチが生成品質と効率を上回り,推論ステップを少なくすることを示した。
また,画像のインバージョンや編集における競合性能も示す。
- 参考スコア(独自算出の注目度): 52.586838532560755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale diffusion models have achieved remarkable performance in generative tasks. Beyond their initial training applications, these models have proven their ability to function as versatile plug-and-play priors. For instance, 2D diffusion models can serve as loss functions to optimize 3D implicit models. Rectified flow, a novel class of generative models, enforces a linear progression from the source to the target distribution and has demonstrated superior performance across various domains. Compared to diffusion-based methods, rectified flow approaches surpass in terms of generation quality and efficiency, requiring fewer inference steps. In this work, we present theoretical and experimental evidence demonstrating that rectified flow based methods offer similar functionalities to diffusion models - they can also serve as effective priors. Besides the generative capabilities of diffusion priors, motivated by the unique time-symmetry properties of rectified flow models, a variant of our method can additionally perform image inversion. Experimentally, our rectified flow-based priors outperform their diffusion counterparts - the SDS and VSD losses - in text-to-3D generation. Our method also displays competitive performance in image inversion and editing.
- Abstract(参考訳): 大規模拡散モデルは、生成タスクにおいて顕著な性能を達成した。
初期のトレーニングアプリケーション以外にも、これらのモデルは汎用的なプラグアンドプレイプリエントとして機能することが証明されている。
例えば、2次元拡散モデルは、3次元の暗黙のモデルを最適化する損失関数として機能する。
新しい生成モデルのクラスである整流流は、ソースからターゲット分布への線形進行を強制し、様々な領域で優れた性能を示す。
拡散に基づく手法と比較して、補正流れのアプローチは生成の質と効率を上回り、推論ステップを少なくする。
本研究では, 拡散モデルに類似した機能を持つ正流法が, 有効な先行モデルとして機能することを示す理論的, 実験的証拠を示す。
修正流れモデルの特異な時間対称性特性に動機づけられた拡散先行現象の生成能力に加えて,本手法の変種は画像インバージョンも追加で行うことができる。
SDSとVSDの損失をテキスト・ツー・3D生成で比較した。
また,画像のインバージョンや編集における競合性能も示す。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Neural Diffusion Models [2.1779479916071067]
本稿では,データの時間依存非線形変換の定義と学習を可能にする,従来の拡散モデルの一般化について述べる。
NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。
論文 参考訳(メタデータ) (2023-10-12T13:54:55Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。