論文の概要: DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing
- arxiv url: http://arxiv.org/abs/2409.01086v2
- Date: Sat, 14 Sep 2024 02:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:48:25.636522
- Title: DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing
- Title(参考訳): DPD編集:マルチモーダルファッション画像編集のための詳細保存拡散モデル
- Authors: Xiaolong Wang, Zhi-Qi Cheng, Jue Wang, Xiaojiang Peng,
- Abstract要約: Detail-Preserved Diffusion Models (DPDEdit) と呼ばれる潜在拡散モデルに基づく新しいファッション画像編集アーキテクチャを導入する。
DPDEditは、テキストプロンプト、地域マスク、人間のポーズイメージ、衣料品のテクスチャイメージを統合することで、拡散モデルのファッション画像生成をガイドする。
テクスチャのテクスチャの詳細を対象のファッションイメージに転送するために,テクスチャ注入と精細化機構を提案する。
- 参考スコア(独自算出の注目度): 26.090574235851083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion image editing is a crucial tool for designers to convey their creative ideas by visualizing design concepts interactively. Current fashion image editing techniques, though advanced with multimodal prompts and powerful diffusion models, often struggle to accurately identify editing regions and preserve the desired garment texture detail. To address these challenges, we introduce a new multimodal fashion image editing architecture based on latent diffusion models, called Detail-Preserved Diffusion Models (DPDEdit). DPDEdit guides the fashion image generation of diffusion models by integrating text prompts, region masks, human pose images, and garment texture images. To precisely locate the editing region, we first introduce Grounded-SAM to predict the editing region based on the user's textual description, and then combine it with other conditions to perform local editing. To transfer the detail of the given garment texture into the target fashion image, we propose a texture injection and refinement mechanism. Specifically, this mechanism employs a decoupled cross-attention layer to integrate textual descriptions and texture images, and incorporates an auxiliary U-Net to preserve the high-frequency details of generated garment texture. Additionally, we extend the VITON-HD dataset using a multimodal large language model to generate paired samples with texture images and textual descriptions. Extensive experiments show that our DPDEdit outperforms state-of-the-art methods in terms of image fidelity and coherence with the given multimodal inputs.
- Abstract(参考訳): ファッション画像編集は、デザイン概念をインタラクティブに視覚化することで、デザイナーが創造的なアイデアを伝える上で重要なツールである。
現在のファッション画像編集技術は、マルチモーダルプロンプトと強力な拡散モデルによって進歩しているが、しばしば編集領域を正確に識別し、望ましいテクスチャの詳細を保存するのに苦労する。
これらの課題に対処するために,我々は,Detail-Preserved Diffusion Models (DPDEdit) と呼ばれる潜在拡散モデルに基づく,新しいマルチモーダルなファッション画像編集アーキテクチャを導入する。
DPDEditは、テキストプロンプト、地域マスク、人間のポーズイメージ、衣料品のテクスチャイメージを統合することで、拡散モデルのファッション画像生成をガイドする。
編集領域を正確に特定するために、まず、ユーザのテキスト記述に基づいて編集領域を予測し、他の条件と組み合わせてローカル編集を行う。
テクスチャのテクスチャの詳細を対象のファッションイメージに転送するために,テクスチャ注入と精細化機構を提案する。
具体的には、このメカニズムは、テキスト記述とテクスチャイメージを統合するために分離されたクロスアテンション層を使用し、補助的なU-Netを組み込んで、生成されたテクスチャテクスチャの高周波の詳細を保存する。
さらに,マルチモーダルな言語モデルを用いてVITON-HDデータセットを拡張し,テクスチャ画像とテクスチャ記述を用いたペアサンプルを生成する。
広汎な実験により,DPDEditは与えられたマルチモーダル入力と画像の忠実度とコヒーレンスの観点から,最先端の手法よりも優れていた。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。
提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文 参考訳(メタデータ) (2024-05-27T03:50:37Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
論文 参考訳(メタデータ) (2024-03-21T20:43:10Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - PRedItOR: Text Guided Image Editing with Diffusion Prior [2.3022070933226217]
テキストガイド画像編集は、テキスト埋め込みの計算集約的な最適化や、テキストガイド画像編集のモデル重みの微調整を必要とする。
我々のアーキテクチャは、テキストプロンプト上に条件付きCLIP画像埋め込みを生成する拡散先行モデルと、CLIP画像埋め込みに条件付き画像を生成するために訓練されたカスタムラテント拡散モデルで構成されている。
我々はこれを、逆DDIMなどの既存のアプローチを用いて、画像デコーダの編集を保存し、テキストガイド画像編集を行う構造と組み合わせる。
論文 参考訳(メタデータ) (2023-02-15T22:58:11Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。