論文の概要: MC-VTON: Minimal Control Virtual Try-On Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2501.03630v2
- Date: Fri, 10 Jan 2025 10:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 12:07:34.601762
- Title: MC-VTON: Minimal Control Virtual Try-On Diffusion Transformer
- Title(参考訳): MC-VTON:最小制御バーチャルトライオン拡散変圧器
- Authors: Junsheng Luan, Guangyuan Li, Lei Zhao, Wei Xing,
- Abstract要約: 拡散モデルに基づく仮想試行法は現実的な試行効果を実現する。
彼らは、複数の条件付き画像入力を処理するために、余分な参照ネットワークまたは追加のイメージエンコーダを使用する。
最小条件の試行入力をシームレスに統合するMC-VTONを導入する。
- 参考スコア(独自算出の注目度): 11.046257874239409
- License:
- Abstract: Virtual try-on methods based on diffusion models achieve realistic try-on effects. They use an extra reference network or an additional image encoder to process multiple conditional image inputs, which adds complexity pre-processing and additional computational costs. Besides, they require more than 25 inference steps, bringing longer inference time. In this work, with the development of diffusion transformer (DiT), we rethink the necessity of additional reference network or image encoder and introduce MC-VTON, which leverages DiT's intrinsic backbone to seamlessly integrate minimal conditional try-on inputs. Compared to existing methods, the superiority of MC-VTON is demonstrated in four aspects: (1) Superior detail fidelity. Our DiT-based MC-VTON exhibits superior fidelity in preserving fine-grained details. (2) Simplified network and inputs. We remove any extra reference network or image encoder. We also remove unnecessary conditions like the long prompt, pose estimation, human parsing, and depth map. We require only the masked person image and the garment image. (3) Parameter-efficient training. To process the try-on task, we fine-tune the FLUX.1-dev with only 39.7M additional parameters (0.33% of the backbone parameters). (4) Less inference steps. We apply distillation diffusion on MC-VTON and only need 8 steps to generate a realistic try-on image, with only 86.8M additional parameters (0.72% of the backbone parameters). Experiments show that MC-VTON achieves superior qualitative and quantitative results with fewer condition inputs, trainable parameters, and inference steps than baseline methods.
- Abstract(参考訳): 拡散モデルに基づく仮想試行法は現実的な試行効果を実現する。
彼らは、複数の条件付き画像入力を処理するために、余分な参照ネットワークまたは追加のイメージエンコーダを使用し、複雑さの前処理と追加の計算コストを追加する。
さらに、25以上の推論ステップが必要で、推論時間が長くなる。
本研究では,拡散変換器 (DiT) の開発により, 参照ネットワークや画像エンコーダの必要性を再考し, MC-VTONを導入する。
既存の手法と比較して, MC-VTON の優越性は, 1) 細部忠実度において4つの点で示される。
DiTをベースとしたMC-VTONは細粒度保存に優れた忠実度を示す。
(2)単純化されたネットワークと入力。
余分な参照ネットワークやイメージエンコーダを削除します。
また、長いプロンプト、ポーズ推定、人間のパース、深さマップといった不要な条件も取り除きます。
マスクされた人物像と衣服像のみが必要である。
(3)パラメータ効率のトレーニング。
トライオンタスクを処理するため、FLUX.1-devを39.7M追加パラメータ(バックボーンパラメータの0.33%)で微調整する。
(4)推論ステップの削減。
MC-VTONに蒸留拡散を施し、現実的な試行画像を生成するのに8ステップしか必要とせず、86.8Mの追加パラメータしか持たない(バックボーンパラメータの0.72%)。
実験の結果, MC-VTONは条件入力が少なく, トレーニング可能なパラメータ, 推論ステップがベースライン法よりも優れていることがわかった。
関連論文リスト
- TrAct: Making First-layer Pre-Activations Trainable [65.40281259525578]
視覚モデルの第1層の訓練について検討し、画素値と更新等級の関係を明確にする。
コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さい。
非常に明るい、または非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
論文 参考訳(メタデータ) (2024-10-31T14:25:55Z) - CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models [78.27600454432566]
CatVTONはシンプルで効率的な仮想試行拡散モデルである。
元の拡散モジュールのみが、追加のネットワークモジュールなしで使用される。
CatVTONは、ベースライン法よりも必要条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られる。
論文 参考訳(メタデータ) (2024-07-21T11:58:53Z) - Invertible Residual Rescaling Models [46.28263683643467]
Invertible Rescaling Networks (IRNs)とその変種は、画像再スケーリングのような様々な画像処理タスクにおいて顕著な成果をみせた。
Invertible Residual Rescaling Models (IRRM) は,高解像度画像と高解像度画像との複射を特定の分布で学習することにより,画像再スケーリングを実現する。
我々のIRRMは,x4再スケーリングにおいて,それぞれ最低0.3dBのPSNRゲインを有し,60%のパラメータと50%のFLOPしか使用していない。
論文 参考訳(メタデータ) (2024-05-05T14:14:49Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - DiffIR: Efficient Diffusion Model for Image Restoration [108.82579440308267]
拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
論文 参考訳(メタデータ) (2023-03-16T16:47:14Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z) - MSP-Former: Multi-Scale Projection Transformer for Single Image
Desnowing [6.22867695581195]
1枚の画像から雪を除去する作業に視覚変換器を適用した。
チャネルに沿って分割された並列ネットワークアーキテクチャを提案し、局所的な特徴改善とグローバルな情報モデリングを別々に行う。
実験では,本手法の優位性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-12T15:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。