論文の概要: StableGarment: Garment-Centric Generation via Stable Diffusion
- arxiv url: http://arxiv.org/abs/2403.10783v1
- Date: Sat, 16 Mar 2024 03:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:45:00.664457
- Title: StableGarment: Garment-Centric Generation via Stable Diffusion
- Title(参考訳): 安定Garment:安定拡散によるガーメント中心生成
- Authors: Rui Wang, Hailong Guo, Jiaming Liu, Huaxia Li, Haibo Zhao, Xu Tang, Yao Hu, Hao Tang, Peipei Li,
- Abstract要約: 衣服中心(GC)生成タスクに対処するための統合フレームワークであるStableGarmentを紹介する。
我々のソリューションは、付加的な自己注意層を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。
専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
- 参考スコア(独自算出の注目度): 29.5112874761836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce StableGarment, a unified framework to tackle garment-centric(GC) generation tasks, including GC text-to-image, controllable GC text-to-image, stylized GC text-to-image, and robust virtual try-on. The main challenge lies in retaining the intricate textures of the garment while maintaining the flexibility of pre-trained Stable Diffusion. Our solution involves the development of a garment encoder, a trainable copy of the denoising UNet equipped with additive self-attention (ASA) layers. These ASA layers are specifically devised to transfer detailed garment textures, also facilitating the integration of stylized base models for the creation of stylized images. Furthermore, the incorporation of a dedicated try-on ControlNet enables StableGarment to execute virtual try-on tasks with precision. We also build a novel data engine that produces high-quality synthesized data to preserve the model's ability to follow prompts. Extensive experiments demonstrate that our approach delivers state-of-the-art (SOTA) results among existing virtual try-on methods and exhibits high flexibility with broad potential applications in various garment-centric image generation.
- Abstract(参考訳): 本稿では,GCテキスト・ツー・イメージ,制御可能なGCテキスト・ツー・イメージ,スタイリングされたGCテキスト・ツー・イメージ,堅牢な仮想トライ・オンなど,GC生成タスクに対処するための統一フレームワークであるStableGarmentを紹介する。
主な課題は、トレーニング済みの安定拡散の柔軟性を維持しながら、衣服の複雑なテクスチャを維持することである。
我々のソリューションは、付加的な自己注意層(ASA)を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。
これらのASA層は、細かなテクスチャを伝達するために特別に考案され、また、スタイリングされたイメージを作成するためのスタイリングされたベースモデルの統合を容易にする。
さらに、専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
また、モデルがプロンプトに従う能力を維持するために、高品質な合成データを生成する新しいデータエンジンを構築します。
広汎な実験により,既存の仮想試行法ではSOTA(State-of-the-art)の結果が得られ,様々な衣服中心の画像生成に広く応用できる可能性が示された。
関連論文リスト
- DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning [6.501730122478447]
DH-VTONは、特別なハイブリッドアテンション学習戦略と深層着衣意味保存モジュールを備えた、深層テキスト駆動型仮想試行モデルである。
衣服の深い意味を抽出するために,我々はまずInternViT-6Bを細粒度特徴学習機として導入する。
カスタマイズドレッシング能力を高めるため,Garment-Feature ControlNet Plus (略してGFC+)モジュールを導入する。
論文 参考訳(メタデータ) (2024-10-16T12:27:10Z) - Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on [7.46772222515689]
OOTDiffusionは、リアルで制御可能なイメージベースの仮想トライオンのための新しいネットワークアーキテクチャである。
我々は、事前訓練された潜伏拡散モデルのパワーを活用し、UNetを設計して、衣服の詳細特徴を学習する。
VITON-HDおよびDress Codeデータセットに関する実験により、OOTDiffusionが効率よく高品質な試行結果を生成することを示した。
論文 参考訳(メタデータ) (2024-03-04T07:17:44Z) - LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On [35.4056826207203]
この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。
提案したアーキテクチャは、新しいオートエンコーダモジュールで拡張された潜在拡散モデルに依存している。
当社のアプローチは競争相手を一貫したマージンで上回り、そのタスクにおいて重要なマイルストーンを達成していることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:38:06Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - GLIGEN: Open-Set Grounded Text-to-Image Generation [97.72536364118024]
Grounded-Language-to-Image Generationは、既存のテキスト・画像拡散モデルの機能を基盤として拡張した新しいアプローチである。
我々のモデルは、キャプションとバウンディングボックス条件入力で、オープンワールドの接地テキスト2img生成を実現する。
GLIGENのCOCOおよびLVISでのゼロショット性能は、既存の教師付きレイアウト・ツー・イメージベースラインよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-01-17T18:58:58Z) - PASTA-GAN++: A Versatile Framework for High-Resolution Unpaired Virtual
Try-on [70.12285433529998]
PASTA-GAN++は高解像度の仮想試行のための汎用システムである。
教師なしのトレーニング、任意の衣服カテゴリー、制御可能な衣服編集をサポートする。
論文 参考訳(メタデータ) (2022-07-27T11:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。