論文の概要: Towards Efficient Diffusion-Based Image Editing with Instant Attention
Masks
- arxiv url: http://arxiv.org/abs/2401.07709v1
- Date: Mon, 15 Jan 2024 14:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:00:51.043825
- Title: Towards Efficient Diffusion-Based Image Editing with Instant Attention
Masks
- Title(参考訳): インスタントアテンションマスクを用いた効率的な拡散型画像編集
- Authors: Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang,
Zhipeng Hu, Xiaoshuai Sun
- Abstract要約: 本稿では、インスタント拡散編集(InstDiffEdit)と呼ばれるテキスト・ツー・イメージ(T2I)拡散モデルの新規で効率的な画像編集手法を提案する。
特に、InstDiffEditは、既存の拡散モデルのクロスモーダルな注意力を活用して、拡散ステップ中に即時マスクガイダンスを実現することを目的としている。
DIEの既存の評価を補うため、既存の手法のマスク精度と局所的な編集能力を調べるためのEditing-Maskと呼ばれる新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 43.079272743475435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based Image Editing (DIE) is an emerging research hot-spot, which
often applies a semantic mask to control the target area for diffusion-based
editing. However, most existing solutions obtain these masks via manual
operations or off-line processing, greatly reducing their efficiency. In this
paper, we propose a novel and efficient image editing method for Text-to-Image
(T2I) diffusion models, termed Instant Diffusion Editing(InstDiffEdit). In
particular, InstDiffEdit aims to employ the cross-modal attention ability of
existing diffusion models to achieve instant mask guidance during the diffusion
steps. To reduce the noise of attention maps and realize the full automatics,
we equip InstDiffEdit with a training-free refinement scheme to adaptively
aggregate the attention distributions for the automatic yet accurate mask
generation. Meanwhile, to supplement the existing evaluations of DIE, we
propose a new benchmark called Editing-Mask to examine the mask accuracy and
local editing ability of existing methods. To validate InstDiffEdit, we also
conduct extensive experiments on ImageNet and Imagen, and compare it with a
bunch of the SOTA methods. The experimental results show that InstDiffEdit not
only outperforms the SOTA methods in both image quality and editing results,
but also has a much faster inference speed, i.e., +5 to +6 times. Our code
available at https://anonymous.4open.science/r/InstDiffEdit-C306/
- Abstract(参考訳): DIE(Diffusion-based Image Editing)は、拡散ベースの画像編集のターゲット領域を制御するためにセマンティックマスクを適用した、新たな研究ホットスポットである。
しかし、既存のほとんどのソリューションは手動操作やオフライン処理によってこれらのマスクを取得し、効率を大幅に低下させる。
本稿では,インスタント拡散編集(instdiffedit,instdiffedit,instdiffedit)と呼ばれる,テキストから画像への拡散モデルのための新しい効率的な画像編集法を提案する。
特にinstdiffeditは、拡散ステップ中にインスタントマスクガイダンスを達成するために、既存の拡散モデルのクロスモーダル注意力を活用することを目指している。
注意マップのノイズを低減し、フルオートマチックを実現するため、自動的かつ正確なマスク生成のための注意分布を適応的に集約するトレーニングフリーな改善スキームをInstDiffEditに装備する。
一方,ダイの既存評価を補完するために,既存手法のマスク精度と局所編集能力を調べるためのediting-maskというベンチマークを提案する。
InstDiffEditを検証するために、ImageNetとImagenの広範な実験を行い、それを多くのSOTAメソッドと比較する。
実験結果によると、InstDiffEditは画像品質と編集結果の両方でSOTA法よりも優れており、推論速度もより高速である(+5から+6倍)。
私たちのコードはhttps://anonymous.4open.science/r/InstDiffEdit-C306/で利用可能です。
関連論文リスト
- Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Accelerating Text-to-Image Editing via Cache-Enabled Sparse Diffusion
Inference [36.73121523987844]
本稿では,高速画像セマンティック編集 (FISEdit) を導入し,効率的なテキスト・画像編集のためのキャッシュ付きスパース拡散モデル推論エンジンを提案する。
FISEditは、入力テキスト上の小さな変更と出力画像上の影響を受ける領域の間の意味マッピングを使用する。
テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。
論文 参考訳(メタデータ) (2023-05-27T09:14:03Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。