論文の概要: Null-text Inversion for Editing Real Images using Guided Diffusion
Models
- arxiv url: http://arxiv.org/abs/2211.09794v1
- Date: Thu, 17 Nov 2022 18:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:36:21.401380
- Title: Null-text Inversion for Editing Real Images using Guided Diffusion
Models
- Title(参考訳): 誘導拡散モデルを用いた実画像編集のためのヌルテキストインバージョン
- Authors: Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, Daniel Cohen-Or
- Abstract要約: 精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
- 参考スコア(独自算出の注目度): 44.27570654402436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent text-guided diffusion models provide powerful image generation
capabilities. Currently, a massive effort is given to enable the modification
of these images using text only as means to offer intuitive and versatile
editing. To edit a real image using these state-of-the-art tools, one must
first invert the image with a meaningful text prompt into the pretrained
model's domain. In this paper, we introduce an accurate inversion technique and
thus facilitate an intuitive text-based modification of the image. Our proposed
inversion consists of two novel key components: (i) Pivotal inversion for
diffusion models. While current methods aim at mapping random noise samples to
a single input image, we use a single pivotal noise vector for each timestamp
and optimize around it. We demonstrate that a direct inversion is inadequate on
its own, but does provide a good anchor for our optimization. (ii) NULL-text
optimization, where we only modify the unconditional textual embedding that is
used for classifier-free guidance, rather than the input text embedding. This
allows for keeping both the model weights and the conditional embedding intact
and hence enables applying prompt-based editing while avoiding the cumbersome
tuning of the model's weights. Our Null-text inversion, based on the publicly
available Stable Diffusion model, is extensively evaluated on a variety of
images and prompt editing, showing high-fidelity editing of real images.
- Abstract(参考訳): 最近のテキスト誘導拡散モデルは強力な画像生成機能を提供する。
現在、直感的で汎用的な編集を提供する手段としてのみ、テキストによる画像の修正を可能にするために、膨大な努力が払われている。
これらの最先端ツールを使って実際の画像を編集するには、事前に訓練されたモデルのドメインに意味のあるテキストプロンプトで画像を反転させなければならない。
本稿では,正確な逆変換手法を導入し,画像の直感的なテキストベースの修正を容易にする。
提案するインバージョンは,2つの新しいキーコンポーネントから構成される。
(i)拡散モデルに対するPivotalインバージョン。
現在の手法では、ランダムノイズサンプルを単一の入力画像にマッピングすることを目指しているが、各タイムスタンプに対して単一の重要なノイズベクトルを使用し、その周りを最適化する。
直接反転はそれ自体では不十分であるが、最適化に十分なアンカーを提供することを示す。
(ii) null-text optimization では、入力テキストの埋め込みではなく、分類子なしのガイダンスに使われる無条件のテキスト埋め込みのみを変更する。
これにより、モデルの重みと条件埋め込みの両方をそのままに保ち、モデルの重みの面倒なチューニングを回避しながら、プロンプトベースの編集を適用することができる。
我々のnullテキストインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像とプロンプト編集で広範囲に評価され、実画像の忠実度の高い編集を示す。
関連論文リスト
- TurboEdit: Instant text-based image editing [32.06820085957286]
我々は,数ステップの拡散モデルを用いて,正確な画像逆転と非交叉画像編集の課題に対処する。
本稿では,エンコーダをベースとした反復インバージョン手法を提案する。このインバージョンネットワークは,入力画像と前ステップからの再構成画像に条件付けされており,次の再構成を入力画像に向けて修正することができる。
提案手法は, リアルタイムなテキストガイド画像編集を容易にするため, インバージョンでは8つの機能評価 (NFE) と4つのNFE (NFE) しか必要としない。
論文 参考訳(メタデータ) (2024-08-14T18:02:24Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - Perceptual Similarity guidance and text guidance optimization for
Editing Real Images using Guided Diffusion Models [0.6345523830122168]
我々は、変更されていない領域において、元の領域に高い忠実性を維持するために、二重誘導アプローチを適用した。
この方法では、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存が保証される。
論文 参考訳(メタデータ) (2023-12-09T02:55:35Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。