Fugu-MT 論文翻訳(概要): Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

論文の概要: Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

arxiv url: http://arxiv.org/abs/2401.07709v1
Date: Mon, 15 Jan 2024 14:25:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 17:00:51.043825
Title: Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks
Title（参考訳）: インスタントアテンションマスクを用いた効率的な拡散型画像編集
Authors: Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun
Abstract要約: 本稿では、インスタント拡散編集(InstDiffEdit)と呼ばれるテキスト・ツー・イメージ(T2I)拡散モデルの新規で効率的な画像編集手法を提案する。特に、InstDiffEditは、既存の拡散モデルのクロスモーダルな注意力を活用して、拡散ステップ中に即時マスクガイダンスを実現することを目的としている。 DIEの既存の評価を補うため、既存の手法のマスク精度と局所的な編集能力を調べるためのEditing-Maskと呼ばれる新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 43.079272743475435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based Image Editing (DIE) is an emerging research hot-spot, which often applies a semantic mask to control the target area for diffusion-based editing. However, most existing solutions obtain these masks via manual operations or off-line processing, greatly reducing their efficiency. In this paper, we propose a novel and efficient image editing method for Text-to-Image (T2I) diffusion models, termed Instant Diffusion Editing(InstDiffEdit). In particular, InstDiffEdit aims to employ the cross-modal attention ability of existing diffusion models to achieve instant mask guidance during the diffusion steps. To reduce the noise of attention maps and realize the full automatics, we equip InstDiffEdit with a training-free refinement scheme to adaptively aggregate the attention distributions for the automatic yet accurate mask generation. Meanwhile, to supplement the existing evaluations of DIE, we propose a new benchmark called Editing-Mask to examine the mask accuracy and local editing ability of existing methods. To validate InstDiffEdit, we also conduct extensive experiments on ImageNet and Imagen, and compare it with a bunch of the SOTA methods. The experimental results show that InstDiffEdit not only outperforms the SOTA methods in both image quality and editing results, but also has a much faster inference speed, i.e., +5 to +6 times. Our code available at https://anonymous.4open.science/r/InstDiffEdit-C306/
Abstract（参考訳）: DIE(Diffusion-based Image Editing)は、拡散ベースの画像編集のターゲット領域を制御するためにセマンティックマスクを適用した、新たな研究ホットスポットである。しかし、既存のほとんどのソリューションは手動操作やオフライン処理によってこれらのマスクを取得し、効率を大幅に低下させる。本稿では,インスタント拡散編集(instdiffedit,instdiffedit,instdiffedit)と呼ばれる,テキストから画像への拡散モデルのための新しい効率的な画像編集法を提案する。特にinstdiffeditは、拡散ステップ中にインスタントマスクガイダンスを達成するために、既存の拡散モデルのクロスモーダル注意力を活用することを目指している。注意マップのノイズを低減し、フルオートマチックを実現するため、自動的かつ正確なマスク生成のための注意分布を適応的に集約するトレーニングフリーな改善スキームをInstDiffEditに装備する。一方,ダイの既存評価を補完するために,既存手法のマスク精度と局所編集能力を調べるためのediting-maskというベンチマークを提案する。 InstDiffEditを検証するために、ImageNetとImagenの広範な実験を行い、それを多くのSOTAメソッドと比較する。実験結果によると、InstDiffEditは画像品質と編集結果の両方でSOTA法よりも優れており、推論速度もより高速である(+5から+6倍)。私たちのコードはhttps://anonymous.4open.science/r/InstDiffEdit-C306/で利用可能です。

関連論文リスト

AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文参考訳（メタデータ） (2025-05-16T23:29:38Z)
PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。提案手法は, 利用者の77～90%に好まれる。
論文参考訳（メタデータ） (2025-02-06T13:08:43Z)
MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion [9.149799210311468]
編集領域をより正確に識別するためにMADiffモデルを提案する。 Atention-Enhanced Diffusion Model は編集サイズを強化するために提案されている。提案手法は,編集領域のマスクを正確に予測し,ファッション画像編集における編集サイズを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-12-28T07:34:49Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing [22.876290778155514]
クロスアテンションマスクはビデオ編集に有効であるが、ぼやけや点滅などのアーティファクトを導入することができる。本稿では,特定の映像編集作業に適した最適なマスクを選択する手法であるFreeMaskを提案する。提案手法は,最先端手法と比較して,意味的忠実度,時間的整合性,品質の編集に優れる。
論文参考訳（メタデータ） (2024-09-30T17:01:26Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文参考訳（メタデータ） (2024-05-24T07:53:59Z)
Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-05-01T04:30:03Z)
LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。 LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文参考訳（メタデータ） (2023-12-14T18:59:59Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文参考訳（メタデータ） (2022-10-20T17:16:37Z)
Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文参考訳（メタデータ） (2022-06-06T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。