論文の概要: MC-VTON: Minimal Control Virtual Try-On Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2501.03630v2
- Date: Fri, 10 Jan 2025 10:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 12:07:34.601762
- Title: MC-VTON: Minimal Control Virtual Try-On Diffusion Transformer
- Title(参考訳): MC-VTON:最小制御バーチャルトライオン拡散変圧器
- Authors: Junsheng Luan, Guangyuan Li, Lei Zhao, Wei Xing,
- Abstract要約: 拡散モデルに基づく仮想試行法は現実的な試行効果を実現する。
彼らは、複数の条件付き画像入力を処理するために、余分な参照ネットワークまたは追加のイメージエンコーダを使用する。
最小条件の試行入力をシームレスに統合するMC-VTONを導入する。
- 参考スコア(独自算出の注目度): 11.046257874239409
- License:
- Abstract: Virtual try-on methods based on diffusion models achieve realistic try-on effects. They use an extra reference network or an additional image encoder to process multiple conditional image inputs, which adds complexity pre-processing and additional computational costs. Besides, they require more than 25 inference steps, bringing longer inference time. In this work, with the development of diffusion transformer (DiT), we rethink the necessity of additional reference network or image encoder and introduce MC-VTON, which leverages DiT's intrinsic backbone to seamlessly integrate minimal conditional try-on inputs. Compared to existing methods, the superiority of MC-VTON is demonstrated in four aspects: (1) Superior detail fidelity. Our DiT-based MC-VTON exhibits superior fidelity in preserving fine-grained details. (2) Simplified network and inputs. We remove any extra reference network or image encoder. We also remove unnecessary conditions like the long prompt, pose estimation, human parsing, and depth map. We require only the masked person image and the garment image. (3) Parameter-efficient training. To process the try-on task, we fine-tune the FLUX.1-dev with only 39.7M additional parameters (0.33% of the backbone parameters). (4) Less inference steps. We apply distillation diffusion on MC-VTON and only need 8 steps to generate a realistic try-on image, with only 86.8M additional parameters (0.72% of the backbone parameters). Experiments show that MC-VTON achieves superior qualitative and quantitative results with fewer condition inputs, trainable parameters, and inference steps than baseline methods.
- Abstract(参考訳): 拡散モデルに基づく仮想試行法は現実的な試行効果を実現する。
彼らは、複数の条件付き画像入力を処理するために、余分な参照ネットワークまたは追加のイメージエンコーダを使用し、複雑さの前処理と追加の計算コストを追加する。
さらに、25以上の推論ステップが必要で、推論時間が長くなる。
本研究では,拡散変換器 (DiT) の開発により, 参照ネットワークや画像エンコーダの必要性を再考し, MC-VTONを導入する。
既存の手法と比較して, MC-VTON の優越性は, 1) 細部忠実度において4つの点で示される。
DiTをベースとしたMC-VTONは細粒度保存に優れた忠実度を示す。
(2)単純化されたネットワークと入力。
余分な参照ネットワークやイメージエンコーダを削除します。
また、長いプロンプト、ポーズ推定、人間のパース、深さマップといった不要な条件も取り除きます。
マスクされた人物像と衣服像のみが必要である。
(3)パラメータ効率のトレーニング。
トライオンタスクを処理するため、FLUX.1-devを39.7M追加パラメータ(バックボーンパラメータの0.33%)で微調整する。
(4)推論ステップの削減。
MC-VTONに蒸留拡散を施し、現実的な試行画像を生成するのに8ステップしか必要とせず、86.8Mの追加パラメータしか持たない(バックボーンパラメータの0.72%)。
実験の結果, MC-VTONは条件入力が少なく, トレーニング可能なパラメータ, 推論ステップがベースライン法よりも優れていることがわかった。
関連論文リスト
- Designing Parameter and Compute Efficient Diffusion Transformers using Distillation [1.0878040851638]
数十億のモデルパラメータを持つ拡散変換器(DiT)は、DALL.E、Stable-Diffusion、SORAのような一般的な画像およびビデオ生成モデルのバックボーンを形成する。
DiTは、膨大な計算複雑性のため、リソース制約のあるエッジデバイスにデプロイすることはできない。
本研究では, 設計ノブ(深さ, 幅, 注意ヘッド, 蒸留設備など)をDiTで選択するための原則を提案する。
論文 参考訳(メタデータ) (2025-02-20T03:40:02Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。
ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。
ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文 参考訳(メタデータ) (2025-01-22T18:59:58Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models [77.39903417768967]
CatVTONは仮想的な試着拡散モデルであり、任意のカテゴリーの衣服をターゲット個人に転送する。
CatVTONはVAEと単純化されたUNetのみで構成され、冗長な画像とテキストエンコーダを除去する。
実験により、CatVTONはベースライン法に比べて質的、定量的に優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-07-21T11:58:53Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation [3.364554138758565]
SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:41:04Z) - DiffIR: Efficient Diffusion Model for Image Restoration [108.82579440308267]
拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
論文 参考訳(メタデータ) (2023-03-16T16:47:14Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。