論文の概要: FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing
- arxiv url: http://arxiv.org/abs/2412.07517v1
- Date: Tue, 10 Dec 2024 13:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:59.815898
- Title: FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing
- Title(参考訳): FireFlow:イメージセマンティック編集のための高速な直流インバージョン
- Authors: Yingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang,
- Abstract要約: FireFlowは、シンプルなが効果的なゼロショットアプローチであり、ReFlowベースのモデルのスターリング能力を継承する。
まず、ReFlowインバージョンにおいて、慎重に設計された数値解法が重要であることを示す。
このソルバは、最先端のReFlowインバージョンや編集技術と比較して、ランタイムのスピードアップを3ドル(約3,300円)で達成します。
- 参考スコア(独自算出の注目度): 27.57630797294312
- License:
- Abstract: Though Rectified Flows (ReFlows) with distillation offers a promising way for fast sampling, its fast inversion transforms images back to structured noise for recovery and following editing remains unsolved. This paper introduces FireFlow, a simple yet effective zero-shot approach that inherits the startling capacity of ReFlow-based models (such as FLUX) in generation while extending its capabilities to accurate inversion and editing in $8$ steps. We first demonstrate that a carefully designed numerical solver is pivotal for ReFlow inversion, enabling accurate inversion and reconstruction with the precision of a second-order solver while maintaining the practical efficiency of a first-order Euler method. This solver achieves a $3\times$ runtime speedup compared to state-of-the-art ReFlow inversion and editing techniques, while delivering smaller reconstruction errors and superior editing results in a training-free mode. The code is available at $\href{https://github.com/HolmesShuan/FireFlow}{this URL}$.
- Abstract(参考訳): 蒸留を伴うRectified Flows (ReFlows) は、高速サンプリングのための有望な方法であるが、高速インバージョンは、イメージを再構成のために構造化ノイズに変換し、その後編集は未解決のままである。
本稿では,ReFlowベースのモデル(FLUXなど)の起動能力を世代毎に継承し,その能力を正確な反転と編集に8ドルのステップで拡張する,シンプルで効果的なゼロショットアプローチであるFireFlowを紹介する。
まず,ReFlowインバージョンにおいて,厳密に設計された数値解法が重要であり,第1次オイラー法の実用的効率を維持しつつ,第2次解法の精度で高精度な逆変換と再構成を可能にすることを実証した。
このソルバは、最先端のReFlowインバージョンや編集技術と比較して3ドル(約3,300円)のランタイムスピードアップを実現し、より小さな再構成エラーと優れた編集結果をトレーニング不要モードで提供する。
コードは$\href{https://github.com/HolmesShuan/FireFlow}{this URL}$で入手できる。
関連論文リスト
- Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:43:38Z) - Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - Lightning-Fast Image Inversion and Editing for Text-to-Image Diffusion Models [46.729930784279645]
暗黙の方程式の根を求めることによって問題を定式化し,効率よく解ける手法を考案する。
我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。
希少物体の画像および生成における改善された結果を示す。
論文 参考訳(メタデータ) (2023-12-19T19:19:19Z) - InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation [33.70116170511312]
安定拡散(SD)を超高速1ステップモデルに変換するための新しいテキスト条件付きパイプラインを提案する。
我々は、SDレベルの画質を持つ最初の1ステップ拡散ベースのテキスト・ツー・イメージ・ジェネレータを作成し、MS COCO 2017-5kで23.3ドルのFIDを達成した。
論文 参考訳(メタデータ) (2023-09-12T16:42:09Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z) - LiteFlowNet3: Resolving Correspondence Ambiguity for More Accurate
Optical Flow Estimation [99.19322851246972]
本稿では,光フロー推定の問題に対処する2つのモジュールからなるディープネットワークである LiteFlowNet3 を紹介する。
LiteFlowNet3は、公開ベンチマークで有望な結果を達成するだけでなく、小さなモデルサイズと高速なランタイムも備えている。
論文 参考訳(メタデータ) (2020-07-18T03:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。