Fugu-MT 論文翻訳(概要): Text-to-Image Rectified Flow as Plug-and-Play Priors

論文の概要: Text-to-Image Rectified Flow as Plug-and-Play Priors

arxiv url: http://arxiv.org/abs/2406.03293v3
Date: Sun, 06 Oct 2024 13:39:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 18:14:01.015574
Title: Text-to-Image Rectified Flow as Plug-and-Play Priors
Title（参考訳）: プラグ・アンド・プレイの先駆者としてのテキスト・ツー・イメージ整形流
Authors: Xiaofeng Yang, Cheng Chen, Xulei Yang, Fayao Liu, Guosheng Lin,
Abstract要約: 整流流は、ソースからターゲット分布への線形進行を強制する新しい生成モデルのクラスである。補正フローアプローチが生成品質と効率を上回り,推論ステップを少なくすることを示した。また,画像のインバージョンや編集における競合性能も示す。
参考スコア（独自算出の注目度）: 52.586838532560755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale diffusion models have achieved remarkable performance in generative tasks. Beyond their initial training applications, these models have proven their ability to function as versatile plug-and-play priors. For instance, 2D diffusion models can serve as loss functions to optimize 3D implicit models. Rectified flow, a novel class of generative models, enforces a linear progression from the source to the target distribution and has demonstrated superior performance across various domains. Compared to diffusion-based methods, rectified flow approaches surpass in terms of generation quality and efficiency, requiring fewer inference steps. In this work, we present theoretical and experimental evidence demonstrating that rectified flow based methods offer similar functionalities to diffusion models - they can also serve as effective priors. Besides the generative capabilities of diffusion priors, motivated by the unique time-symmetry properties of rectified flow models, a variant of our method can additionally perform image inversion. Experimentally, our rectified flow-based priors outperform their diffusion counterparts - the SDS and VSD losses - in text-to-3D generation. Our method also displays competitive performance in image inversion and editing.
Abstract（参考訳）: 大規模拡散モデルは、生成タスクにおいて顕著な性能を達成した。初期のトレーニングアプリケーション以外にも、これらのモデルは汎用的なプラグアンドプレイプリエントとして機能することが証明されている。例えば、2次元拡散モデルは、3次元の暗黙のモデルを最適化する損失関数として機能する。新しい生成モデルのクラスである整流流は、ソースからターゲット分布への線形進行を強制し、様々な領域で優れた性能を示す。拡散に基づく手法と比較して、補正流れのアプローチは生成の質と効率を上回り、推論ステップを少なくする。本研究では, 拡散モデルに類似した機能を持つ正流法が, 有効な先行モデルとして機能することを示す理論的, 実験的証拠を示す。修正流れモデルの特異な時間対称性特性に動機づけられた拡散先行現象の生成能力に加えて,本手法の変種は画像インバージョンも追加で行うことができる。 SDSとVSDの損失をテキスト・ツー・3D生成で比較した。また,画像のインバージョンや編集における競合性能も示す。

関連論文リスト

Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing [10.542645300983878]
本稿では,事前学習した流れモデルに対する推論時間スケーリング手法を提案する。本稿では,SDE に基づく生成,特に分散保存型 (VP) 補間型 (VP) 生成は,フローモデルにおける推論時間スケーリングのための粒子サンプリング法を改善することを示す。
論文参考訳（メタデータ） (2025-03-25T06:30:45Z)
Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。 GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文参考訳（メタデータ） (2024-09-27T20:21:19Z)
Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [30.973473583364832]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-26T12:16:11Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Learn to Optimize Denoising Scores for 3D Generation: A Unified and Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文参考訳（メタデータ） (2023-12-08T03:55:34Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。