論文の概要: Fixed-point Inversion for Text-to-image diffusion models
- arxiv url: http://arxiv.org/abs/2312.12540v1
- Date: Tue, 19 Dec 2023 19:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:01:16.615527
- Title: Fixed-point Inversion for Text-to-image diffusion models
- Title(参考訳): テキスト・画像拡散モデルのための固定点インバージョン
- Authors: Barak Meiri, Dvir Samuel, Nir Darshan, Gal Chechik, Shai Avidan, Rami
Ben-Ari
- Abstract要約: 与えられた画像を反転させる現在の技術は遅く、あるいは不正確である。
ここでは、この問題を不動点方程式問題として定式化し、不動点反復を用いて解く。
符号化のプロンプト対応調整を適用することで、その修正方法を示す。
- 参考スコア(独自算出の注目度): 39.66869060771468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided diffusion models offer powerful new ways to generate and
manipulate images. Several applications of these models, including image
editing interpolation, and semantic augmentation, require diffusion inversion.
This is the process of finding a noise seed that can be used to generate a
given image. Current techniques for inverting a given image can be slow or
inaccurate. The technical challenge for inverting the diffusion process arises
from an implicit equation over the latent that cannot be solved in closed form.
Previous approaches proposed to solve this issue by approximation or various
learning schemes. Here, we formulate the problem as a fixed-point equation
problem and solve it using fixed-point iterations, a well-studied approach in
numerical analysis. We further identify a source of inconsistency that
significantly hurts the inversion of real images encoded to the latent space.
We show how to correct it by applying a prompt-aware adjustment of the
encoding. Our solution, Fixed-point inversion, is much faster than previous
techniques like EDICT and Null-text, with similar inversion quality. It can be
combined with any pretrained diffusion model and requires no model training,
prompt tuning, or additional parameters. In a series of experiments, we find
that Fixed-point inversion shows improved results in several downstream tasks:
image editing, image interpolation, and generation of rare objects.
- Abstract(参考訳): テキスト誘導拡散モデルは、画像の生成と操作の強力な新しい方法を提供する。
画像編集補間や意味的拡張を含むこれらのモデルのいくつかの応用は拡散反転を必要とする。
これは、与えられた画像を生成するために使用できるノイズシードを見つけるプロセスである。
与えられた画像を反転させる現在の技術は遅く、あるいは不正確である。
拡散過程を反転させる技術的挑戦は、閉形式では解けない潜在性上の暗黙の方程式から生じる。
この問題に対する従来のアプローチは、近似あるいは様々な学習スキームによって解決された。
そこで,この問題を定点方程式問題として定式化し,数値解析におけるよく研究された手法である固定点反復法を用いて解いた。
さらに,潜在空間に符号化された実画像の反転を著しく損なう不整合の原因を特定する。
符号化のプロンプト対応調整を適用することで、その修正方法を示す。
私たちのソリューションである固定点反転は、同じような反転品質で、ruleやnull-textといった以前の技術よりもはるかに高速です。
事前訓練された拡散モデルと組み合わせて、モデルトレーニング、即時チューニング、追加パラメータを必要としない。
一連の実験で、不動点反転は、画像編集、画像補間、レアオブジェクトの生成など、いくつかの下流タスクで改善された結果を示すことが判明した。
関連論文リスト
- An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models [13.00429687431982]
拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化する。
既存の拡散ブリッジモデルは、しばしば微分方程式のサンプリングに頼り、推論速度が遅くなる。
拡散ブリッジモデルの開始点を有する高次ODEサンプリング器を提案する。
本手法は, 既訓練拡散ブリッジモデルと完全に互換性があり, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-12-28T03:32:26Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - ERDDCI: Exact Reversible Diffusion via Dual-Chain Inversion for High-Quality Image Editing [20.46262679357339]
拡散モデル(DM)は実画像編集に成功している。
近年のDMは、しばしば局所線形化の仮定に依存している。
ERDDCIは、新しいDual-Chain Inversion (DCI) を用いて関節推論を行い、正確な可逆拡散過程を導出する。
論文 参考訳(メタデータ) (2024-10-18T07:52:03Z) - Blind Image Restoration via Fast Diffusion Inversion [17.139433082780037]
Blind Image Restoration via fast Diffusion (BIRD) は、劣化モデルパラメータと復元画像の協調最適化を行うブラインド赤外線法である。
提案手法の鍵となる考え方は、初期ノイズがサンプリングされると、逆サンプリングを変更すること、すなわち、中間潜水剤を全て変更しないことである。
画像復元作業におけるBIRDの有効性を実験的に検証し,それらすべてに対して,その成果が得られたことを示す。
論文 参考訳(メタデータ) (2024-05-29T23:38:12Z) - Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文 参考訳(メタデータ) (2023-10-02T11:31:48Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。