論文の概要: DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder
- arxiv url: http://arxiv.org/abs/2412.17644v1
- Date: Mon, 23 Dec 2024 15:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:48.129121
- Title: DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder
- Title(参考訳): DreamFit:軽量な物体を描画するエンコーダによるガーメント中心の人間生成
- Authors: Ente Lin, Xujie Zhang, Fuwei Zhao, Yuxuan Luo, Xin Dong, Long Zeng, Xiaodan Liang,
- Abstract要約: テキストや画像プロンプトから衣料中心の人間生成のための拡散モデルが注目されている。
衣服中心の人間生成に適した軽量のAnything-Dressingを組み込んだDreamFitを提案する。
我々のモデルは驚くほど多種多様な(非)着想、創造的なスタイル、命令のプロンプトを一般化し、常に高品質な結果をもたらす。
- 参考スコア(独自算出の注目度): 51.09561183696647
- License:
- Abstract: Diffusion models for garment-centric human generation from text or image prompts have garnered emerging attention for their great application potential. However, existing methods often face a dilemma: lightweight approaches, such as adapters, are prone to generate inconsistent textures; while finetune-based methods involve high training costs and struggle to maintain the generalization capabilities of pretrained diffusion models, limiting their performance across diverse scenarios. To address these challenges, we propose DreamFit, which incorporates a lightweight Anything-Dressing Encoder specifically tailored for the garment-centric human generation. DreamFit has three key advantages: (1) \textbf{Lightweight training}: with the proposed adaptive attention and LoRA modules, DreamFit significantly minimizes the model complexity to 83.4M trainable parameters. (2)\textbf{Anything-Dressing}: Our model generalizes surprisingly well to a wide range of (non-)garments, creative styles, and prompt instructions, consistently delivering high-quality results across diverse scenarios. (3) \textbf{Plug-and-play}: DreamFit is engineered for smooth integration with any community control plugins for diffusion models, ensuring easy compatibility and minimizing adoption barriers. To further enhance generation quality, DreamFit leverages pretrained large multi-modal models (LMMs) to enrich the prompt with fine-grained garment descriptions, thereby reducing the prompt gap between training and inference. We conduct comprehensive experiments on both $768 \times 512$ high-resolution benchmarks and in-the-wild images. DreamFit surpasses all existing methods, highlighting its state-of-the-art capabilities of garment-centric human generation.
- Abstract(参考訳): テキストや画像のプロンプトから衣料中心の人間生成のための拡散モデルが、その大きな応用可能性に対して注目を集めている。
しかし、既存の手法はしばしばジレンマに直面している: アダプタのような軽量なアプローチは、一貫性のないテクスチャを生成する傾向があるが、ファネチューンベースの手法は、トレーニングコストが高く、事前訓練された拡散モデルの一般化能力を維持するのに苦労し、様々なシナリオで性能を制限している。
これらの課題に対処するために、衣服中心の人間世代に特化された軽量のAnything-Dressing Encoderを組み込んだDreamFitを提案する。
1 \textbf{Lightweight training}: 適応的注意とLoRAモジュールの提案により、DreamFitはモデルの複雑さを83.4Mのトレーニング可能なパラメータに著しく小さくする。
2)\textbf{Anything-Dressing}: 私たちのモデルは、驚くほど多くの(非)ジャンル、クリエイティブスタイル、インストラクションを一般化し、さまざまなシナリオで継続的に高品質な結果を提供する。
(3) \textbf{Plug-and-play}: DreamFitは、拡散モデルのためのあらゆるコミュニティコントロールプラグインとのスムーズな統合のために設計されており、容易に互換性を確保し、採用障壁を最小限にする。
生成品質をさらに向上するため、DreamFitは事前訓練された大型マルチモーダルモデル(LMM)を活用して、微細な衣料記述でプロンプトを強化し、トレーニングと推論の迅速なギャップを減らした。
768 \times 512$高解像度のベンチマークとインザミルド画像の両方で包括的な実験を行う。
DreamFitは既存のすべての手法を超越し、衣服中心の人間生成の最先端の能力を強調している。
関連論文リスト
- Multi-modal Pose Diffuser: A Multimodal Generative Conditional Pose Prior [8.314155285516073]
MOPEDは、SMPLポーズパラメータの先行として、新しいマルチモーダル条件拡散モデルを利用する最初の方法である。
本手法は,画像やテキストなどのマルチモーダル入力の条件付けが可能な,強力な非条件ポーズ生成を提供する。
論文 参考訳(メタデータ) (2024-10-18T15:29:19Z) - PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - DREAM: Diffusion Rectification and Estimation-Adaptive Models [50.66535824749801]
DREAM(Diffusion Rectification and Estimation Adaptive Models)を提案する。
DREAMには2つのコンポーネントがある。DREAMは、サンプリングプロセスの反映のためにトレーニングを調整する拡散補正と、歪みに対する知覚のバランスをとる推定適応である。
論文 参考訳(メタデータ) (2023-11-30T21:44:39Z) - HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models [58.39439948383928]
HyperDreamBoothは、単一のイメージから小さなパーソナライズされた重みを効率的に生成できるハイパーネットワークである。
本手法は,DreamBoothの約20秒,DreamBoothの約25倍,Textual Inversionの125倍の速さで顔のパーソナライズを実現する。
論文 参考訳(メタデータ) (2023-07-13T17:59:47Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - SMPLicit: Topology-aware Generative Model for Clothed People [65.84665248796615]
SMPLicitは、身体のポーズ、形状、衣服の形状を共同で表現する新しい生成モデルである。
実験では,3dスキャンの装着や,服装者の画像の3d再構成にsmplicitが容易に利用できることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。