論文の概要: MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion
- arxiv url: http://arxiv.org/abs/2412.20062v2
- Date: Wed, 15 Jan 2025 15:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:50:14.502984
- Title: MADiff: Text-Guided Fashion Image Editing with Mask Prediction and Attention-Enhanced Diffusion
- Title(参考訳): MADiff: マスク予測と注意強調拡散を用いたテキストガイドファッション画像編集
- Authors: Zechao Zhan, Dehong Gao, Jinxia Zhang, Jiale Huang, Yang Hu, Xin Wang,
- Abstract要約: 編集領域をより正確に識別するためにMADiffモデルを提案する。
Atention-Enhanced Diffusion Model は編集サイズを強化するために提案されている。
提案手法は,編集領域のマスクを正確に予測し,ファッション画像編集における編集サイズを大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 9.149799210311468
- License:
- Abstract: Text-guided image editing model has achieved great success in general domain. However, directly applying these models to the fashion domain may encounter two issues: (1) Inaccurate localization of editing region; (2) Weak editing magnitude. To address these issues, the MADiff model is proposed. Specifically, to more accurately identify editing region, the MaskNet is proposed, in which the foreground region, densepose and mask prompts from large language model are fed into a lightweight UNet to predict the mask for editing region. To strengthen the editing magnitude, the Attention-Enhanced Diffusion Model is proposed, where the noise map, attention map, and the mask from MaskNet are fed into the proposed Attention Processor to produce a refined noise map. By integrating the refined noise map into the diffusion model, the edited image can better align with the target prompt. Given the absence of benchmarks in fashion image editing, we constructed a dataset named Fashion-E, comprising 28390 image-text pairs in the training set, and 2639 image-text pairs for four types of fashion tasks in the evaluation set. Extensive experiments on Fashion-E demonstrate that our proposed method can accurately predict the mask of editing region and significantly enhance editing magnitude in fashion image editing compared to the state-of-the-art methods.
- Abstract(参考訳): テキスト誘導画像編集モデルは一般領域において大きな成功を収めている。
しかし,これらのモデルをファッション分野に直接適用することは,(1)編集領域の不正確な局所化,(2)編集範囲の弱さ,という2つの問題に直面する可能性がある。
これらの問題に対処するため、MADiffモデルを提案する。
具体的には、編集領域をより正確に識別するために、前景領域、密接な配置、大規模な言語モデルからのマスクプロンプトを軽量なUNetに入力し、編集領域のマスクを予測するMaskNetを提案する。
編集の規模を拡大するため、ノイズマップ、アテンションマップ、マスクをアテンションプロセッサに入力し、改良されたノイズマップを生成するアテンション拡張拡散モデルを提案する。
改良されたノイズマップを拡散モデルに統合することにより、編集された画像はターゲットのプロンプトとよりよく一致させることができる。
ファッション画像編集におけるベンチマークの欠如を踏まえ,トレーニングセットに28390組のイメージテキストペアと,評価セットに4種類のファッションタスクのための2639組のイメージテキストペアからなるFashion-Eというデータセットを構築した。
Fashion-Eの大規模な実験により,提案手法は編集領域のマスクを正確に予測し,ファッション画像編集における編集の規模を最先端の手法と比較して著しく向上させることができることを示した。
関連論文リスト
- DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing [26.090574235851083]
Detail-Preserved Diffusion Models (DPDEdit) と呼ばれる潜在拡散モデルに基づく新しいファッション画像編集アーキテクチャを導入する。
DPDEditは、テキストプロンプト、地域マスク、人間のポーズイメージ、衣料品のテクスチャイメージを統合することで、拡散モデルのファッション画像生成をガイドする。
テクスチャのテクスチャの詳細を対象のファッションイメージに転送するために,テクスチャ注入と精細化機構を提案する。
論文 参考訳(メタデータ) (2024-09-02T09:15:26Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Towards Efficient Diffusion-Based Image Editing with Instant Attention
Masks [43.079272743475435]
本稿では、インスタント拡散編集(InstDiffEdit)と呼ばれるテキスト・ツー・イメージ(T2I)拡散モデルの新規で効率的な画像編集手法を提案する。
特に、InstDiffEditは、既存の拡散モデルのクロスモーダルな注意力を活用して、拡散ステップ中に即時マスクガイダンスを実現することを目的としている。
DIEの既存の評価を補うため、既存の手法のマスク精度と局所的な編集能力を調べるためのEditing-Maskと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-15T14:25:54Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions [109.51624993088687]
テキストインストラクションを用いたNeRFシーンの編集手法を提案する。
シーンのNeRFと再構成に使用される画像の収集を前提として,画像条件の拡散モデル(InstructPix2Pix)を用いてシーンを最適化しながら入力画像を反復的に編集する。
提案手法は,大規模で現実的なシーンの編集が可能であり,従来よりもリアルで目標とした編集を実現できることを実証する。
論文 参考訳(メタデータ) (2023-03-22T17:57:57Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。