論文の概要: Focus on Your Instruction: Fine-grained and Multi-instruction Image
Editing by Attention Modulation
- arxiv url: http://arxiv.org/abs/2312.10113v1
- Date: Fri, 15 Dec 2023 09:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:37:38.976965
- Title: Focus on Your Instruction: Fine-grained and Multi-instruction Image
Editing by Attention Modulation
- Title(参考訳): 指示に焦点をあてて:注意変調によるきめ細かなマルチインストラクション画像編集
- Authors: Qin Guo, Tianwei Lin
- Abstract要約: Focus on Your Instruction (FoI) は、余分なトレーニングやテストタイムの最適化なしに複数の命令をまたいだ正確かつ調和した編集を保証するために設計された手法である。
最初の目的として,命令と画像の交差位置からIP2Pの暗黙的な接地能力を特定し,効果的なマスク抽出法を開発した。
第2の目的として、ターゲット編集領域と非関連領域を大まかに分離するクロスアテンション変調モジュールを導入する。
- 参考スコア(独自算出の注目度): 14.012262637116134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion-based methods, like InstructPix2Pix (IP2P), have achieved
effective instruction-based image editing, requiring only natural language
instructions from the user. However, these methods often inadvertently alter
unintended areas and struggle with multi-instruction editing, resulting in
compromised outcomes. To address these issues, we introduce the Focus on Your
Instruction (FoI), a method designed to ensure precise and harmonious editing
across multiple instructions without extra training or test-time optimization.
In the FoI, we primarily emphasize two aspects: (1) precisely extracting
regions of interest for each instruction and (2) guiding the denoising process
to concentrate within these regions of interest. For the first objective, we
identify the implicit grounding capability of IP2P from the cross-attention
between instruction and image, then develop an effective mask extraction
method. For the second objective, we introduce a cross attention modulation
module for rough isolation of target editing regions and unrelated regions.
Additionally, we introduce a mask-guided disentangle sampling strategy to
further ensure clear region isolation. Experimental results demonstrate that
FoI surpasses existing methods in both quantitative and qualitative
evaluations, especially excelling in multi-instruction editing task.
- Abstract(参考訳): 近年,InstructPix2Pix (IP2P)のような拡散ベースの手法は,ユーザからの自然言語命令のみを必要とする効果的な命令ベースの画像編集を実現している。
しかし、これらの手法はしばしば意図しない領域を不注意に変更し、マルチインストラクション編集に苦しむ。
これらの問題に対処するために、我々はFoI(FoI)を導入する。これは、余分なトレーニングやテスト時間最適化を伴わずに、複数の命令をまたいだ正確かつ調和した編集を保証するための方法である。
FoI では,(1) それぞれの指示に対する関心領域を正確に抽出すること,(2) 関心領域に集中する認知過程を導くこと,の2つの側面を強調した。
最初の目的として,命令と画像の交差位置からIP2Pの暗黙的な接地能力を特定し,効果的なマスク抽出法を開発した。
第2の目的として,ターゲット編集領域と非関連領域を大まかに分離するクロスアテンション変調モジュールを提案する。
さらに,マスク誘導型アンタングルサンプリング手法を導入し,領域分離の明確化を図る。
実験結果から,FoIは定量評価と定性評価の両方において既存の手法を超越していることがわかった。
関連論文リスト
- Two Tricks to Improve Unsupervised Segmentation Learning [37.63303434543399]
教師なしセグメンテーション学習のための2つの実践的改善手法を提案する。
まず、誘導フィルタリングなどの画像後処理技術を利用して出力マスクを洗練する。
第2に,教師-学生養成方式に基づくマルチスケールの一貫性基準を導入する。
論文 参考訳(メタデータ) (2024-04-04T11:49:56Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Detect and Locate: A Face Anti-Manipulation Approach with Semantic and
Noise-level Supervision [67.73180660609844]
本稿では,画像中の偽造顔を効率的に検出する,概念的にシンプルだが効果的な方法を提案する。
提案手法は,画像に関する意味の高い意味情報を提供するセグメンテーションマップに依存する。
提案モデルでは,最先端検出精度と顕著なローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2021-07-13T02:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。