論文の概要: Focus on Your Instruction: Fine-grained and Multi-instruction Image
Editing by Attention Modulation
- arxiv url: http://arxiv.org/abs/2312.10113v1
- Date: Fri, 15 Dec 2023 09:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:37:38.976965
- Title: Focus on Your Instruction: Fine-grained and Multi-instruction Image
Editing by Attention Modulation
- Title(参考訳): 指示に焦点をあてて:注意変調によるきめ細かなマルチインストラクション画像編集
- Authors: Qin Guo, Tianwei Lin
- Abstract要約: Focus on Your Instruction (FoI) は、余分なトレーニングやテストタイムの最適化なしに複数の命令をまたいだ正確かつ調和した編集を保証するために設計された手法である。
最初の目的として,命令と画像の交差位置からIP2Pの暗黙的な接地能力を特定し,効果的なマスク抽出法を開発した。
第2の目的として、ターゲット編集領域と非関連領域を大まかに分離するクロスアテンション変調モジュールを導入する。
- 参考スコア(独自算出の注目度): 14.012262637116134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion-based methods, like InstructPix2Pix (IP2P), have achieved
effective instruction-based image editing, requiring only natural language
instructions from the user. However, these methods often inadvertently alter
unintended areas and struggle with multi-instruction editing, resulting in
compromised outcomes. To address these issues, we introduce the Focus on Your
Instruction (FoI), a method designed to ensure precise and harmonious editing
across multiple instructions without extra training or test-time optimization.
In the FoI, we primarily emphasize two aspects: (1) precisely extracting
regions of interest for each instruction and (2) guiding the denoising process
to concentrate within these regions of interest. For the first objective, we
identify the implicit grounding capability of IP2P from the cross-attention
between instruction and image, then develop an effective mask extraction
method. For the second objective, we introduce a cross attention modulation
module for rough isolation of target editing regions and unrelated regions.
Additionally, we introduce a mask-guided disentangle sampling strategy to
further ensure clear region isolation. Experimental results demonstrate that
FoI surpasses existing methods in both quantitative and qualitative
evaluations, especially excelling in multi-instruction editing task.
- Abstract(参考訳): 近年,InstructPix2Pix (IP2P)のような拡散ベースの手法は,ユーザからの自然言語命令のみを必要とする効果的な命令ベースの画像編集を実現している。
しかし、これらの手法はしばしば意図しない領域を不注意に変更し、マルチインストラクション編集に苦しむ。
これらの問題に対処するために、我々はFoI(FoI)を導入する。これは、余分なトレーニングやテスト時間最適化を伴わずに、複数の命令をまたいだ正確かつ調和した編集を保証するための方法である。
FoI では,(1) それぞれの指示に対する関心領域を正確に抽出すること,(2) 関心領域に集中する認知過程を導くこと,の2つの側面を強調した。
最初の目的として,命令と画像の交差位置からIP2Pの暗黙的な接地能力を特定し,効果的なマスク抽出法を開発した。
第2の目的として,ターゲット編集領域と非関連領域を大まかに分離するクロスアテンション変調モジュールを提案する。
さらに,マスク誘導型アンタングルサンプリング手法を導入し,領域分離の明確化を図る。
実験結果から,FoIは定量評価と定性評価の両方において既存の手法を超越していることがわかった。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Two Tricks to Improve Unsupervised Segmentation Learning [37.63303434543399]
教師なしセグメンテーション学習のための2つの実践的改善手法を提案する。
まず、誘導フィルタリングなどの画像後処理技術を利用して出力マスクを洗練する。
第2に,教師-学生養成方式に基づくマルチスケールの一貫性基準を導入する。
論文 参考訳(メタデータ) (2024-04-04T11:49:56Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。