論文の概要: Fixed-point Inversion for Text-to-image diffusion models
- arxiv url: http://arxiv.org/abs/2312.12540v1
- Date: Tue, 19 Dec 2023 19:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:01:16.615527
- Title: Fixed-point Inversion for Text-to-image diffusion models
- Title(参考訳): テキスト・画像拡散モデルのための固定点インバージョン
- Authors: Barak Meiri, Dvir Samuel, Nir Darshan, Gal Chechik, Shai Avidan, Rami
Ben-Ari
- Abstract要約: 与えられた画像を反転させる現在の技術は遅く、あるいは不正確である。
ここでは、この問題を不動点方程式問題として定式化し、不動点反復を用いて解く。
符号化のプロンプト対応調整を適用することで、その修正方法を示す。
- 参考スコア(独自算出の注目度): 39.66869060771468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided diffusion models offer powerful new ways to generate and
manipulate images. Several applications of these models, including image
editing interpolation, and semantic augmentation, require diffusion inversion.
This is the process of finding a noise seed that can be used to generate a
given image. Current techniques for inverting a given image can be slow or
inaccurate. The technical challenge for inverting the diffusion process arises
from an implicit equation over the latent that cannot be solved in closed form.
Previous approaches proposed to solve this issue by approximation or various
learning schemes. Here, we formulate the problem as a fixed-point equation
problem and solve it using fixed-point iterations, a well-studied approach in
numerical analysis. We further identify a source of inconsistency that
significantly hurts the inversion of real images encoded to the latent space.
We show how to correct it by applying a prompt-aware adjustment of the
encoding. Our solution, Fixed-point inversion, is much faster than previous
techniques like EDICT and Null-text, with similar inversion quality. It can be
combined with any pretrained diffusion model and requires no model training,
prompt tuning, or additional parameters. In a series of experiments, we find
that Fixed-point inversion shows improved results in several downstream tasks:
image editing, image interpolation, and generation of rare objects.
- Abstract(参考訳): テキスト誘導拡散モデルは、画像の生成と操作の強力な新しい方法を提供する。
画像編集補間や意味的拡張を含むこれらのモデルのいくつかの応用は拡散反転を必要とする。
これは、与えられた画像を生成するために使用できるノイズシードを見つけるプロセスである。
与えられた画像を反転させる現在の技術は遅く、あるいは不正確である。
拡散過程を反転させる技術的挑戦は、閉形式では解けない潜在性上の暗黙の方程式から生じる。
この問題に対する従来のアプローチは、近似あるいは様々な学習スキームによって解決された。
そこで,この問題を定点方程式問題として定式化し,数値解析におけるよく研究された手法である固定点反復法を用いて解いた。
さらに,潜在空間に符号化された実画像の反転を著しく損なう不整合の原因を特定する。
符号化のプロンプト対応調整を適用することで、その修正方法を示す。
私たちのソリューションである固定点反転は、同じような反転品質で、ruleやnull-textといった以前の技術よりもはるかに高速です。
事前訓練された拡散モデルと組み合わせて、モデルトレーニング、即時チューニング、追加パラメータを必要としない。
一連の実験で、不動点反転は、画像編集、画像補間、レアオブジェクトの生成など、いくつかの下流タスクで改善された結果を示すことが判明した。
関連論文リスト
- Improving Denoising Diffusion Models via Simultaneous Estimation of
Image and Noise [15.702941058218196]
本稿では,逆拡散過程によって生成される画像の速度と品質の向上を目的とした2つの重要なコントリビューションを紹介する。
最初のコントリビューションは、画像と雑音の間の四分円弧上の角度で拡散過程を再パラメータ化することである。
2つ目のコントリビューションは、私たちのネットワークを使ってイメージ(mathbfx_0$)とノイズ(mathbfepsilon$)を直接見積もることです。
論文 参考訳(メタデータ) (2023-10-26T05:43:07Z) - Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文 参考訳(メタデータ) (2023-10-02T11:31:48Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。