論文の概要: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.15886v2
- Date: Sun, 16 Feb 2025 03:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:03.147695
- Title: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- Title(参考訳): CatVTON: 拡散モデルで仮想試行錯誤がすべて
- Authors: Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, Dongmei Jiang, Xiaodan Liang,
- Abstract要約: CatVTONは仮想的な試着拡散モデルであり、任意のカテゴリーの衣服をターゲット個人に転送する。
CatVTONはVAEと単純化されたUNetのみで構成され、冗長な画像とテキストエンコーダを除去する。
実験により、CatVTONはベースライン法に比べて質的、定量的に優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 77.39903417768967
- License:
- Abstract: Virtual try-on methods based on diffusion models achieve realistic effects but often require additional encoding modules, a large number of training parameters, and complex preprocessing, which increases the burden on training and inference. In this work, we re-evaluate the necessity of additional modules and analyze how to improve training efficiency and reduce redundant steps in the inference process. Based on these insights, we propose CatVTON, a simple and efficient virtual try-on diffusion model that transfers in-shop or worn garments of arbitrary categories to target individuals by concatenating them along spatial dimensions as inputs of the diffusion model. The efficiency of CatVTON is reflected in three aspects: (1) Lightweight network. CatVTON consists only of a VAE and a simplified denoising UNet, removing redundant image and text encoders as well as cross-attentions, and includes just 899.06M parameters. (2) Parameter-efficient training. Through experimental analysis, we identify self-attention modules as crucial for adapting pre-trained diffusion models to the virtual try-on task, enabling high-quality results with only 49.57M training parameters. (3) Simplified inference. CatVTON eliminates unnecessary preprocessing, such as pose estimation, human parsing, and captioning, requiring only a person image and garment reference to guide the virtual try-on process, reducing over 49% memory usage compared to other diffusion-based methods. Extensive experiments demonstrate that CatVTON achieves superior qualitative and quantitative results compared to baseline methods and demonstrates strong generalization performance in in-the-wild scenarios, despite being trained solely on public datasets with 73K samples.
- Abstract(参考訳): 拡散モデルに基づく仮想試行法は、現実的な効果を達成するが、しばしば追加の符号化モジュール、多数のトレーニングパラメータ、複雑な前処理を必要とし、訓練と推論の負担を増大させる。
本研究では、追加モジュールの必要性を再評価し、トレーニング効率の向上と推論プロセスにおける冗長なステップの削減について分析する。
これらの知見に基づいて,任意のカテゴリーの衣服を対象個人に移動させる,シンプルで効率的な仮想試着拡散モデルであるCatVTONを提案する。
CatVTONの効率は、(1)軽量ネットワークの3つの側面に反映される。
CatVTONはVAEと単純化されたUNetのみで構成され、冗長な画像とテキストエンコーダとクロスアテンションを除去し、わずか899.06Mのパラメータを含む。
2) パラメータ効率のトレーニング。
実験により,事前学習した拡散モデルを仮想試行課題に適応させる上では,自己注意モジュールが不可欠であることが確認され,49.57Mのトレーニングパラメータで高品質な結果が得られる。
(3)簡易推論
CatVTONは、ポーズ推定、ヒューマンパース、キャプションなどの不要な前処理を排除し、仮想トライオンプロセスのガイドには人物画像と衣服参照のみを必要とし、他の拡散ベースの方法と比較して49%以上のメモリ使用量を削減している。
大規模な実験により、CatVTONはベースライン法と比較して質的かつ定量的な結果が優れていることが示され、73Kサンプルの公開データセットのみにのみトレーニングされているにもかかわらず、現場シナリオにおける強力な一般化性能を示す。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.73798955587999]
D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文 参考訳(メタデータ) (2024-07-21T10:40:53Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - CAT-DM: Controllable Accelerated Virtual Try-on with Diffusion Model [38.08115084929579]
画像ベースの仮想試行において,GAN(Generative Adversarial Networks)が研究分野を支配している。
拡散モデル(CAT-DM)を用いた制御可能な仮想トライオンを提案する。
論文 参考訳(メタデータ) (2023-11-30T09:56:17Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。