論文の概要: Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
- arxiv url: http://arxiv.org/abs/2410.10792v1
- Date: Mon, 14 Oct 2024 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:34:54.148906
- Title: Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
- Title(参考訳): 確率微分方程式を用いた意味的画像インバージョンと編集
- Authors: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu,
- Abstract要約: 本稿では, (i) 逆転と (ii) 修正フローモデル(Flux など)を用いた実画像の編集という2つの重要な課題に対処する。
本手法は,ゼロショット・インバージョン・編集における最先端性能を実現し,ストローク・ツー・イメージ合成やセマンティック・イメージ編集における先行技術よりも優れていた。
- 参考スコア(独自算出の注目度): 41.87051958934507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.
- Abstract(参考訳): 生成モデルはランダムノイズを画像に変換する。
本稿では,2つの課題に対処する。
(i)逆転・逆転
(II) 整流モデル(Flux など)の確率的等価値を用いた実画像の編集。
近年,拡散モデル (DM) は画像生成モデリングの分野を支配しているが,その逆転はドリフトや拡散の非線形性による忠実さや編集可能性の課題を呈している。
既存の最先端のDMインバージョンアプローチは、追加パラメータのトレーニングや潜伏変数のテスト時間最適化に依存している。
Rectified Flows (RF) は拡散モデルに代わる有望な代替手段を提供するが、その逆転は過小評価されている。
線形2次レギュレータによる動的最適制御を用いたRFインバージョンを提案する。
得られたベクトル場が正則確率微分方程式と等価であることを証明する。
さらに、フレームワークを拡張して、Fluxの確率的なサンプルを設計する。
インバージョン法では、ゼロショットのインバージョンと編集における最先端のパフォーマンスを実現し、ストローク・ツー・イメージの合成やセマンティック・イメージの編集において、人間の大規模な評価によりユーザの好みを確認する。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Sequential Posterior Sampling with Diffusion Models [15.028061496012924]
条件付き画像合成における逐次拡散後サンプリングの効率を向上させるため,遷移力学をモデル化する新しい手法を提案する。
本研究では,高フレームレート心エコー画像の現実的データセットに対するアプローチの有効性を実証する。
提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。
論文 参考訳(メタデータ) (2024-09-09T07:55:59Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。