論文の概要: Towards Efficient Diffusion-Based Image Editing with Instant Attention
Masks
- arxiv url: http://arxiv.org/abs/2401.07709v1
- Date: Mon, 15 Jan 2024 14:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:00:51.043825
- Title: Towards Efficient Diffusion-Based Image Editing with Instant Attention
Masks
- Title(参考訳): インスタントアテンションマスクを用いた効率的な拡散型画像編集
- Authors: Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang,
Zhipeng Hu, Xiaoshuai Sun
- Abstract要約: 本稿では、インスタント拡散編集(InstDiffEdit)と呼ばれるテキスト・ツー・イメージ(T2I)拡散モデルの新規で効率的な画像編集手法を提案する。
特に、InstDiffEditは、既存の拡散モデルのクロスモーダルな注意力を活用して、拡散ステップ中に即時マスクガイダンスを実現することを目的としている。
DIEの既存の評価を補うため、既存の手法のマスク精度と局所的な編集能力を調べるためのEditing-Maskと呼ばれる新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 43.079272743475435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based Image Editing (DIE) is an emerging research hot-spot, which
often applies a semantic mask to control the target area for diffusion-based
editing. However, most existing solutions obtain these masks via manual
operations or off-line processing, greatly reducing their efficiency. In this
paper, we propose a novel and efficient image editing method for Text-to-Image
(T2I) diffusion models, termed Instant Diffusion Editing(InstDiffEdit). In
particular, InstDiffEdit aims to employ the cross-modal attention ability of
existing diffusion models to achieve instant mask guidance during the diffusion
steps. To reduce the noise of attention maps and realize the full automatics,
we equip InstDiffEdit with a training-free refinement scheme to adaptively
aggregate the attention distributions for the automatic yet accurate mask
generation. Meanwhile, to supplement the existing evaluations of DIE, we
propose a new benchmark called Editing-Mask to examine the mask accuracy and
local editing ability of existing methods. To validate InstDiffEdit, we also
conduct extensive experiments on ImageNet and Imagen, and compare it with a
bunch of the SOTA methods. The experimental results show that InstDiffEdit not
only outperforms the SOTA methods in both image quality and editing results,
but also has a much faster inference speed, i.e., +5 to +6 times. Our code
available at https://anonymous.4open.science/r/InstDiffEdit-C306/
- Abstract(参考訳): DIE(Diffusion-based Image Editing)は、拡散ベースの画像編集のターゲット領域を制御するためにセマンティックマスクを適用した、新たな研究ホットスポットである。
しかし、既存のほとんどのソリューションは手動操作やオフライン処理によってこれらのマスクを取得し、効率を大幅に低下させる。
本稿では,インスタント拡散編集(instdiffedit,instdiffedit,instdiffedit)と呼ばれる,テキストから画像への拡散モデルのための新しい効率的な画像編集法を提案する。
特にinstdiffeditは、拡散ステップ中にインスタントマスクガイダンスを達成するために、既存の拡散モデルのクロスモーダル注意力を活用することを目指している。
注意マップのノイズを低減し、フルオートマチックを実現するため、自動的かつ正確なマスク生成のための注意分布を適応的に集約するトレーニングフリーな改善スキームをInstDiffEditに装備する。
一方,ダイの既存評価を補完するために,既存手法のマスク精度と局所編集能力を調べるためのediting-maskというベンチマークを提案する。
InstDiffEditを検証するために、ImageNetとImagenの広範な実験を行い、それを多くのSOTAメソッドと比較する。
実験結果によると、InstDiffEditは画像品質と編集結果の両方でSOTA法よりも優れており、推論速度もより高速である(+5から+6倍)。
私たちのコードはhttps://anonymous.4open.science/r/InstDiffEdit-C306/で利用可能です。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing [22.876290778155514]
クロスアテンションマスクはビデオ編集に有効であるが、ぼやけや点滅などのアーティファクトを導入することができる。
本稿では,特定の映像編集作業に適した最適なマスクを選択する手法であるFreeMaskを提案する。
提案手法は,最先端手法と比較して,意味的忠実度,時間的整合性,品質の編集に優れる。
論文 参考訳(メタデータ) (2024-09-30T17:01:26Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。