論文の概要: StableGarment: Garment-Centric Generation via Stable Diffusion
- arxiv url: http://arxiv.org/abs/2403.10783v1
- Date: Sat, 16 Mar 2024 03:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:45:00.664457
- Title: StableGarment: Garment-Centric Generation via Stable Diffusion
- Title(参考訳): 安定Garment:安定拡散によるガーメント中心生成
- Authors: Rui Wang, Hailong Guo, Jiaming Liu, Huaxia Li, Haibo Zhao, Xu Tang, Yao Hu, Hao Tang, Peipei Li,
- Abstract要約: 衣服中心(GC)生成タスクに対処するための統合フレームワークであるStableGarmentを紹介する。
我々のソリューションは、付加的な自己注意層を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。
専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
- 参考スコア(独自算出の注目度): 29.5112874761836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce StableGarment, a unified framework to tackle garment-centric(GC) generation tasks, including GC text-to-image, controllable GC text-to-image, stylized GC text-to-image, and robust virtual try-on. The main challenge lies in retaining the intricate textures of the garment while maintaining the flexibility of pre-trained Stable Diffusion. Our solution involves the development of a garment encoder, a trainable copy of the denoising UNet equipped with additive self-attention (ASA) layers. These ASA layers are specifically devised to transfer detailed garment textures, also facilitating the integration of stylized base models for the creation of stylized images. Furthermore, the incorporation of a dedicated try-on ControlNet enables StableGarment to execute virtual try-on tasks with precision. We also build a novel data engine that produces high-quality synthesized data to preserve the model's ability to follow prompts. Extensive experiments demonstrate that our approach delivers state-of-the-art (SOTA) results among existing virtual try-on methods and exhibits high flexibility with broad potential applications in various garment-centric image generation.
- Abstract(参考訳): 本稿では,GCテキスト・ツー・イメージ,制御可能なGCテキスト・ツー・イメージ,スタイリングされたGCテキスト・ツー・イメージ,堅牢な仮想トライ・オンなど,GC生成タスクに対処するための統一フレームワークであるStableGarmentを紹介する。
主な課題は、トレーニング済みの安定拡散の柔軟性を維持しながら、衣服の複雑なテクスチャを維持することである。
我々のソリューションは、付加的な自己注意層(ASA)を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。
これらのASA層は、細かなテクスチャを伝達するために特別に考案され、また、スタイリングされたイメージを作成するためのスタイリングされたベースモデルの統合を容易にする。
さらに、専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
また、モデルがプロンプトに従う能力を維持するために、高品質な合成データを生成する新しいデータエンジンを構築します。
広汎な実験により,既存の仮想試行法ではSOTA(State-of-the-art)の結果が得られ,様々な衣服中心の画像生成に広く応用できる可能性が示された。
関連論文リスト
- LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - Magic Clothing: Controllable Garment-Driven Image Synthesis [7.46772222515689]
我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目指して、画像制御性が最も重要な問題である。
衣料品の特徴を捉えるために衣服抽出装置を導入し, 自覚融合を用いて予め訓練したLCDに組み込む。
論文 参考訳(メタデータ) (2024-04-15T07:15:39Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on [7.46772222515689]
OOTDiffusionは、リアルで制御可能なイメージベースの仮想トライオンのための新しいネットワークアーキテクチャである。
我々は、事前訓練された潜伏拡散モデルのパワーを活用し、UNetを設計して、衣服の詳細特徴を学習する。
VITON-HDおよびDress Codeデータセットに関する実験により、OOTDiffusionが効率よく高品質な試行結果を生成することを示した。
論文 参考訳(メタデータ) (2024-03-04T07:17:44Z) - LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On [35.4056826207203]
この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。
提案したアーキテクチャは、新しいオートエンコーダモジュールで拡張された潜在拡散モデルに依存している。
当社のアプローチは競争相手を一貫したマージンで上回り、そのタスクにおいて重要なマイルストーンを達成していることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:38:06Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - GLIGEN: Open-Set Grounded Text-to-Image Generation [97.72536364118024]
Grounded-Language-to-Image Generationは、既存のテキスト・画像拡散モデルの機能を基盤として拡張した新しいアプローチである。
我々のモデルは、キャプションとバウンディングボックス条件入力で、オープンワールドの接地テキスト2img生成を実現する。
GLIGENのCOCOおよびLVISでのゼロショット性能は、既存の教師付きレイアウト・ツー・イメージベースラインよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-01-17T18:58:58Z) - PASTA-GAN++: A Versatile Framework for High-Resolution Unpaired Virtual
Try-on [70.12285433529998]
PASTA-GAN++は高解像度の仮想試行のための汎用システムである。
教師なしのトレーニング、任意の衣服カテゴリー、制御可能な衣服編集をサポートする。
論文 参考訳(メタデータ) (2022-07-27T11:47:49Z) - Self-Distilled StyleGAN: Towards Generation from Internet Photos [47.28014076401117]
本稿では,インターネットから収集した未処理画像に対して,StyleGANをどのように適応させるかを示す。
本稿では,2つの主成分からなるスタイルGANを用いた自己蒸留法を提案する。
提案手法は,データの多様性の損失を最小限に抑えつつ,高品質な画像の生成を可能にする。
論文 参考訳(メタデータ) (2022-02-24T17:16:47Z) - Towards Scalable Unpaired Virtual Try-On via Patch-Routed
Spatially-Adaptive GAN [66.3650689395967]
本稿では,現実世界の仮想試行を支援するテクスチャ保存型終末ネットワークであるPAtch-routed SpaTially-Adaptive GAN (PASTA-GAN)を提案する。
PASTA-GANは、各衣服のスタイルと空間情報をアンタングルするために、革新的なパッチを外したアンタングルモジュールで構成されている。
論文 参考訳(メタデータ) (2021-11-20T08:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。