論文の概要: MC-VTON: Minimal Control Virtual Try-On Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2501.03630v1
- Date: Tue, 07 Jan 2025 09:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 16:58:02.998676
- Title: MC-VTON: Minimal Control Virtual Try-On Diffusion Transformer
- Title(参考訳): MC-VTON:最小制御バーチャルトライオン拡散変圧器
- Authors: Junsheng Luan, Guangyuan Li, Lei Zhao, Wei Xing,
- Abstract要約: 拡散モデルに基づく仮想試行法は現実的な試行効果を実現する。
彼らは、複数の条件付き画像入力を処理するために、余分な参照ネットワークまたは追加のイメージエンコーダを使用し、結果としてトレーニングコストが高い。
MC-VTONを提案することで,DiTは本質的なバックボーンを利用することで,最小条件付きトライオン入力を統合できる。
- 参考スコア(独自算出の注目度): 11.046257874239409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual try-on methods based on diffusion models achieve realistic try-on effects. They use an extra reference network or an additional image encoder to process multiple conditional image inputs, which results in high training costs. Besides, they require more than 25 inference steps, bringing a long inference time. In this work, with the development of diffusion transformer (DiT), we rethink the necessity of reference network or image encoder, then propose MC-VTON, enabling DiT to integrate minimal conditional try-on inputs by utilizing its intrinsic backbone. Compared to existing methods, the superiority of MC-VTON is demonstrated in four aspects: (1)Superior detail fidelity. Our DiT-based MC-VTON exhibits superior fidelity in preserving fine-grained details. (2)Simplified network and inputs. We remove any extra reference network or image encoder. We also remove unnecessary conditions like the long prompt, pose estimation, human parsing, and depth map. We require only the masked person image and the garment image. (3)Parameter-efficient training. To process the try-on task, we fine-tune the FLUX.1-dev with only 39.7M additional parameters 0.33% of the backbone parameters). (4)Less inference steps. We apply distillation diffusion on MC-VTON and only need 8 steps to generate a realistic try-on image, with only 86.8M additional parameters (0.72% of the backbone parameters). Experiments show that MC-VTON achieves superior qualitative and quantitative results with fewer condition inputs, fewer inference steps, and fewer trainable parameters than baseline methods.
- Abstract(参考訳): 拡散モデルに基づく仮想試行法は現実的な試行効果を実現する。
彼らは、複数の条件付き画像入力を処理するために、余分な参照ネットワークまたは追加のイメージエンコーダを使用し、結果としてトレーニングコストが高い。
さらに、25以上の推論ステップが必要で、長い推論時間がかかります。
本研究では拡散トランス (DiT) の開発により, 参照ネットワークや画像エンコーダの必要性を再考し, MC-VTONを提案する。
既存の手法と比較して, MC-VTON の優越性は, 1) 細部忠実さの4つの側面で示される。
DiTをベースとしたMC-VTONは細粒度保存に優れた忠実度を示す。
(2)単純化されたネットワークと入力。
余分な参照ネットワークやイメージエンコーダを削除します。
また、長いプロンプト、ポーズ推定、人間のパース、深さマップといった不要な条件も取り除きます。
マスクされた人物像と衣服像のみが必要である。
(3)パラメータ効率のトレーニング。
トライオンタスクを処理するために、FLUX.1-devを39.7M追加パラメータで微調整する(バックボーンパラメータの0.33%)。
(4)Less推論ステップ。
MC-VTONに蒸留拡散を施し、現実的な試行画像を生成するのに8ステップしか必要とせず、86.8Mの追加パラメータ(バックボーンパラメータの0.72%)しか必要としない。
実験により、MC-VTONは条件入力が少なく、推論ステップが少なく、ベースライン法よりも訓練可能なパラメータが少なく、質的かつ定量的な結果が得られることが示された。
関連論文リスト
- Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision [7.668943487262671]
本稿では,拡散駆動型プロンプトジェネレータ(Diff-Prompt)を提案し,リッチできめ細かいプロンプト情報を生成する。
Diff-Promptは、基礎モデルと比較して、R@1で8.87、R@5で14.05の最大改善を実現している。
論文 参考訳(メタデータ) (2025-04-30T08:28:38Z) - Designing Parameter and Compute Efficient Diffusion Transformers using Distillation [1.0878040851638]
数十億のモデルパラメータを持つ拡散変換器(DiT)は、DALL.E、Stable-Diffusion、SORAのような一般的な画像およびビデオ生成モデルのバックボーンを形成する。
DiTは、膨大な計算複雑性のため、リソース制約のあるエッジデバイスにデプロイすることはできない。
本研究では, 設計ノブ(深さ, 幅, 注意ヘッド, 蒸留設備など)をDiTで選択するための原則を提案する。
論文 参考訳(メタデータ) (2025-02-20T03:40:02Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models [78.27600454432566]
CatVTONはシンプルで効率的な仮想試行拡散モデルである。
元の拡散モジュールのみが、追加のネットワークモジュールなしで使用される。
CatVTONは、ベースライン法よりも必要条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られる。
論文 参考訳(メタデータ) (2024-07-21T11:58:53Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - DiffIR: Efficient Diffusion Model for Image Restoration [108.82579440308267]
拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
論文 参考訳(メタデータ) (2023-03-16T16:47:14Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z) - MSP-Former: Multi-Scale Projection Transformer for Single Image
Desnowing [6.22867695581195]
1枚の画像から雪を除去する作業に視覚変換器を適用した。
チャネルに沿って分割された並列ネットワークアーキテクチャを提案し、局所的な特徴改善とグローバルな情報モデリングを別々に行う。
実験では,本手法の優位性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-12T15:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。