論文の概要: Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.07825v1
- Date: Tue, 15 Nov 2022 01:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:54:12.857281
- Title: Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models
- Title(参考訳): direct inversion:拡散モデルを用いた最適化フリーテキスト駆動実画像編集
- Authors: Adham Elarabawy, Harish Kamath, Samuel Denton
- Abstract要約: 本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of large, publicly-available text-to-image diffusion models,
text-guided real image editing has garnered much research attention recently.
Existing methods tend to either rely on some form of per-instance or per-task
fine-tuning and optimization, require multiple novel views, or they inherently
entangle preservation of real image identity, semantic coherence, and
faithfulness to text guidance. In this paper, we propose an optimization-free
and zero fine-tuning framework that applies complex and non-rigid edits to a
single real image via a text prompt, avoiding all the pitfalls described above.
Using widely-available generic pre-trained text-to-image diffusion models, we
demonstrate the ability to modulate pose, scene, background, style, color, and
even racial identity in an extremely flexible manner through a single target
text detailing the desired edit. Furthermore, our method, which we name
$\textit{Direct Inversion}$, proposes multiple intuitively configurable
hyperparameters to allow for a wide range of types and extents of real image
edits. We prove our method's efficacy in producing high-quality, diverse,
semantically coherent, and faithful real image edits through applying it on a
variety of inputs for a multitude of tasks. We also formalize our method in
well-established theory, detail future experiments for further improvement, and
compare against state-of-the-art attempts.
- Abstract(参考訳): 大規模で一般公開されたテキストから画像への拡散モデルが登場し、テキストガイド付き実画像編集は近年多くの研究の注目を集めている。
既存の手法では、入力毎の何らかの形式やタスク毎の微調整や最適化、複数の新しいビューを必要とする、あるいは本質的には実際の画像のアイデンティティ、セマンティックコヒーレンス、テキストガイダンスへの忠実さの保持を必要とする傾向がある。
本稿では,テキストプロンプトを用いて,複雑な非リギッド編集を1つの実画像に適用し,上述のすべての落とし穴を回避する最適化フリーでゼロな微調整フレームワークを提案する。
広範に訓練されたテキストから画像への拡散モデルを用いて,ポーズ,シーン,背景,スタイル,色,さらには人種的アイデンティティを,所望の編集を詳述した1つのターゲットテキストを通じて,極めて柔軟な方法で変調できることを実証する。
さらに、我々は$\textit{Direct Inversion}$と名付け、複数の直感的に設定可能なハイパーパラメータを提案し、様々な種類の画像編集を可能にする。
我々は,様々なタスクに対して様々な入力に適用することにより,高品質で多様で,セマンティックに一貫性があり,忠実な実画像編集を実現する方法の有効性を実証する。
また,本手法を確立した理論で定式化し,さらなる改良のための今後の実験を詳述し,最先端の試みと比較する。
関連論文リスト
- Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Towards Real-time Text-driven Image Manipulation with Unconditional
Diffusion Models [33.993466872389085]
画像操作を4.5~10倍高速に学習し、8倍高速に適用するアルゴリズムを開発した。
提案手法では,事前学習したモデルをユーザの指定した画像やテキスト記述にわずか4秒で適用することができる。
論文 参考訳(メタデータ) (2023-04-10T01:21:56Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。