論文の概要: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.15886v1
- Date: Sun, 21 Jul 2024 11:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 21:44:53.206519
- Title: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- Title(参考訳): CatVTON: 拡散モデルで仮想試行錯誤がすべて
- Authors: Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, Xiaodan Liang,
- Abstract要約: CatVTONはシンプルで効率的な仮想試行拡散モデルである。
元の拡散モジュールのみが、追加のネットワークモジュールなしで使用される。
CatVTONは、ベースライン法よりも必要条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られる。
- 参考スコア(独自算出の注目度): 78.27600454432566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual try-on methods based on diffusion models achieve realistic try-on effects but often replicate the backbone network as a ReferenceNet or use additional image encoders to process condition inputs, leading to high training and inference costs. In this work, we rethink the necessity of ReferenceNet and image encoders and innovate the interaction between garment and person by proposing CatVTON, a simple and efficient virtual try-on diffusion model. CatVTON facilitates the seamless transfer of in-shop or worn garments of any category to target persons by simply concatenating them in spatial dimensions as inputs. The efficiency of our model is demonstrated in three aspects: (1) Lightweight network: Only the original diffusion modules are used, without additional network modules. The text encoder and cross-attentions for text injection in the backbone are removed, reducing the parameters by 167.02M. (2) Parameter-efficient training: We identified the try-on relevant modules through experiments and achieved high-quality try-on effects by training only 49.57M parameters, approximately 5.51 percent of the backbone network's parameters. (3) Simplified inference: CatVTON eliminates all unnecessary conditions and preprocessing steps, including pose estimation, human parsing, and text input, requiring only a garment reference, target person image, and mask for the virtual try-on process. Extensive experiments demonstrate that CatVTON achieves superior qualitative and quantitative results with fewer prerequisites and trainable parameters than baseline methods. Furthermore, CatVTON shows good generalization in in-the-wild scenarios despite using open-source datasets with only 73K samples.
- Abstract(参考訳): 拡散モデルに基づく仮想試行法は、現実的な試行効果を実現するが、しばしばReferenceNetとしてバックボーンネットワークを複製したり、条件入力を処理するために追加の画像エンコーダを使用したりすることで、高いトレーニングと推論コストをもたらす。
本研究では,リファレンスネットと画像エンコーダの必要性を再考し,シンプルで効率的な仮想トライオン拡散モデルであるCatVTONを提案する。
CatVTONは、任意のカテゴリーの着物や着物のシームレスな移動を容易にする。
1)軽量ネットワーク:元の拡散モジュールのみを使用し、追加のネットワークモジュールは使用しない。
バックボーン内のテキストインジェクション用のテキストエンコーダとクロスアテンションを除去し、パラメータを167.02M削減する。
2) パラメータ効率のトレーニング: 実験により試行関連モジュールを特定し, バックボーンネットワークのパラメータの約5.51パーセントである49.57Mパラメータのみをトレーニングすることで, 高品質な試行効果を得た。
(3) 簡易推論: CatVTONは、ポーズ推定、人間のパース、テキスト入力などの不要な条件と事前処理のステップをすべて排除し、仮想トライオンプロセスには衣服参照、対象人物画像、マスクのみを必要とする。
大規模な実験により、CatVTONはベースライン法よりも条件条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られることが示された。
さらに、CatVTONは73Kのサンプルしか持たないオープンソースデータセットを使用していないにも関わらず、Wildのシナリオにおいて優れた一般化を示している。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.73798955587999]
D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文 参考訳(メタデータ) (2024-07-21T10:40:53Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - CAT-DM: Controllable Accelerated Virtual Try-on with Diffusion Model [38.08115084929579]
画像ベースの仮想試行において,GAN(Generative Adversarial Networks)が研究分野を支配している。
拡散モデル(CAT-DM)を用いた制御可能な仮想トライオンを提案する。
論文 参考訳(メタデータ) (2023-11-30T09:56:17Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。