論文の概要: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.15886v2
- Date: Sun, 16 Feb 2025 03:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:03.147695
- Title: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- Title(参考訳): CatVTON: 拡散モデルで仮想試行錯誤がすべて
- Authors: Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, Dongmei Jiang, Xiaodan Liang,
- Abstract要約: CatVTONは仮想的な試着拡散モデルであり、任意のカテゴリーの衣服をターゲット個人に転送する。
CatVTONはVAEと単純化されたUNetのみで構成され、冗長な画像とテキストエンコーダを除去する。
実験により、CatVTONはベースライン法に比べて質的、定量的に優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 77.39903417768967
- License:
- Abstract: Virtual try-on methods based on diffusion models achieve realistic effects but often require additional encoding modules, a large number of training parameters, and complex preprocessing, which increases the burden on training and inference. In this work, we re-evaluate the necessity of additional modules and analyze how to improve training efficiency and reduce redundant steps in the inference process. Based on these insights, we propose CatVTON, a simple and efficient virtual try-on diffusion model that transfers in-shop or worn garments of arbitrary categories to target individuals by concatenating them along spatial dimensions as inputs of the diffusion model. The efficiency of CatVTON is reflected in three aspects: (1) Lightweight network. CatVTON consists only of a VAE and a simplified denoising UNet, removing redundant image and text encoders as well as cross-attentions, and includes just 899.06M parameters. (2) Parameter-efficient training. Through experimental analysis, we identify self-attention modules as crucial for adapting pre-trained diffusion models to the virtual try-on task, enabling high-quality results with only 49.57M training parameters. (3) Simplified inference. CatVTON eliminates unnecessary preprocessing, such as pose estimation, human parsing, and captioning, requiring only a person image and garment reference to guide the virtual try-on process, reducing over 49% memory usage compared to other diffusion-based methods. Extensive experiments demonstrate that CatVTON achieves superior qualitative and quantitative results compared to baseline methods and demonstrates strong generalization performance in in-the-wild scenarios, despite being trained solely on public datasets with 73K samples.
- Abstract(参考訳): 拡散モデルに基づく仮想試行法は、現実的な効果を達成するが、しばしば追加の符号化モジュール、多数のトレーニングパラメータ、複雑な前処理を必要とし、訓練と推論の負担を増大させる。
本研究では、追加モジュールの必要性を再評価し、トレーニング効率の向上と推論プロセスにおける冗長なステップの削減について分析する。
これらの知見に基づいて,任意のカテゴリーの衣服を対象個人に移動させる,シンプルで効率的な仮想試着拡散モデルであるCatVTONを提案する。
CatVTONの効率は、(1)軽量ネットワークの3つの側面に反映される。
CatVTONはVAEと単純化されたUNetのみで構成され、冗長な画像とテキストエンコーダとクロスアテンションを除去し、わずか899.06Mのパラメータを含む。
2) パラメータ効率のトレーニング。
実験により,事前学習した拡散モデルを仮想試行課題に適応させる上では,自己注意モジュールが不可欠であることが確認され,49.57Mのトレーニングパラメータで高品質な結果が得られる。
(3)簡易推論
CatVTONは、ポーズ推定、ヒューマンパース、キャプションなどの不要な前処理を排除し、仮想トライオンプロセスのガイドには人物画像と衣服参照のみを必要とし、他の拡散ベースの方法と比較して49%以上のメモリ使用量を削減している。
大規模な実験により、CatVTONはベースライン法と比較して質的かつ定量的な結果が優れていることが示され、73Kサンプルの公開データセットのみにのみトレーニングされているにもかかわらず、現場シナリオにおける強力な一般化性能を示す。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - NViST: In the Wild New View Synthesis from a Single Image with Transformers [8.361847255300846]
単一画像からの効率的なノベルビュー合成のためのトランスフォーマーベースモデルであるNViSTを提案する。
NViSTは、カジュアルにキャプチャされた現実世界のビデオの大規模なデータセットであるMVImgNetでトレーニングされている。
MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - CAT-DM: Controllable Accelerated Virtual Try-on with Diffusion Model [38.08115084929579]
画像ベースの仮想試行において,GAN(Generative Adversarial Networks)が研究分野を支配している。
拡散モデル(CAT-DM)を用いた制御可能な仮想トライオンを提案する。
論文 参考訳(メタデータ) (2023-11-30T09:56:17Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。