論文の概要: An Item is Worth a Prompt: Versatile Image Editing with Disentangled
Control
- arxiv url: http://arxiv.org/abs/2403.04880v1
- Date: Thu, 7 Mar 2024 20:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:46:10.646141
- Title: An Item is Worth a Prompt: Versatile Image Editing with Disentangled
Control
- Title(参考訳): アイテムはプロンプトに値する:不連続制御による多彩な画像編集
- Authors: Aosong Feng, Weikang Qiu, Jinbin Bai, Kaicheng Zhou, Zhen Dong, Xiao
Zhang, Rex Ying, Leandros Tassiulas
- Abstract要約: D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
- 参考スコア(独自算出の注目度): 22.43821132940801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on the success of text-to-image diffusion models (DPMs), image
editing is an important application to enable human interaction with
AI-generated content. Among various editing methods, editing within the prompt
space gains more attention due to its capacity and simplicity of controlling
semantics. However, since diffusion models are commonly pretrained on
descriptive text captions, direct editing of words in text prompts usually
leads to completely different generated images, violating the requirements for
image editing. On the other hand, existing editing methods usually consider
introducing spatial masks to preserve the identity of unedited regions, which
are usually ignored by DPMs and therefore lead to inharmonic editing results.
Targeting these two challenges, in this work, we propose to disentangle the
comprehensive image-prompt interaction into several item-prompt interactions,
with each item linked to a special learned prompt. The resulting framework,
named D-Edit, is based on pretrained diffusion models with cross-attention
layers disentangled and adopts a two-step optimization to build item-prompt
associations. Versatile image editing can then be applied to specific items by
manipulating the corresponding prompts. We demonstrate state-of-the-art results
in four types of editing operations including image-based, text-based,
mask-based editing, and item removal, covering most types of editing
applications, all within a single unified framework. Notably, D-Edit is the
first framework that can (1) achieve item editing through mask editing and (2)
combine image and text-based editing. We demonstrate the quality and
versatility of the editing results for a diverse collection of images through
both qualitative and quantitative evaluations.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデル(DPM)の成功に基づき、画像編集はAI生成コンテンツとのヒューマンインタラクションを可能にする重要なアプリケーションである。
様々な編集方法のうち、プロンプト空間での編集は、その能力とセマンティクスの制御の単純さにより、より注目を集める。
しかし、拡散モデルは通常、記述的なテキストキャプションで事前学習されるため、テキストプロンプトで単語を直接編集すると、画像編集の要件に違反する全く異なる画像が生成される。
一方、既存の編集手法では、通常はDPMによって無視され、不調和な編集結果につながる未編集領域のアイデンティティを保持するために、通常、空間マスクの導入を検討する。
本稿では,これら2つの課題を目標として,複数の項目間相互作用に包括的イメージ・プロンプト相互作用を分離し,各項目を特別な学習プロンプトに関連付けることを提案する。
D-Editという名前のフレームワークは、クロスアテンション層が絡み合った事前訓練された拡散モデルに基づいており、アイテムプロンプトアソシエーションを構築するために2段階の最適化を採用する。
次に、対応するプロンプトを操作することで、多彩な画像編集を特定のアイテムに適用することができる。
我々は、画像ベース、テキストベース、マスクベースの編集、アイテム削除を含む4種類の編集操作において、ほとんどの種類の編集アプリケーションを1つの統一フレームワークでカバーし、最先端の結果を実証する。
特にD-Editは,(1)マスク編集による項目編集を実現し,(2)画像とテキストベースの編集を組み合わせた最初のフレームワークである。
質的および定量的な評価により,多様な画像の編集結果の品質と汎用性を実証する。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。