論文の概要: Mobile-VTON: High-Fidelity On-Device Virtual Try-On
- arxiv url: http://arxiv.org/abs/2603.00947v2
- Date: Tue, 03 Mar 2026 09:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.543866
- Title: Mobile-VTON: High-Fidelity On-Device Virtual Try-On
- Title(参考訳): Mobile-VTON:高忠実なオンデバイスバーチャルトライオン
- Authors: Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong,
- Abstract要約: Mobile-VTONは、仮想トライオンのための高品質なプライバシ保護フレームワークである。
単一のユーザイメージと衣料品イメージのみを使用して、コモディティモバイルデバイス上で完全にオフラインの仮想試用を可能にする。
- 参考スコア(独自算出の注目度): 75.5009105664896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual try-on (VTON) has recently achieved impressive visual fidelity, but most existing systems require uploading personal photos to cloud-based GPUs, raising privacy concerns and limiting on-device deployment. To address this, we present Mobile-VTON, a high-quality, privacy-preserving framework that enables fully offline virtual try-on on commodity mobile devices using only a single user image and a garment image. Mobile-VTON introduces a modular TeacherNet-GarmentNet-TryonNet (TGT) architecture that integrates knowledge distillation, garment-conditioned generation, and garment alignment into a unified pipeline optimized for on-device efficiency. Within this framework, we propose a Feature-Guided Adversarial (FGA) Distillation strategy that combines teacher supervision with adversarial learning to better match real-world image distributions. GarmentNet is trained with a trajectory-consistency loss to preserve garment semantics across diffusion steps, while TryonNet uses latent concatenation and lightweight cross-modal conditioning to enable robust garment-to-person alignment without large-scale pretraining. By combining these components, Mobile-VTON achieves high-fidelity generation with low computational overhead. Experiments on VITON-HD and DressCode at 1024 x 768 show that it matches or outperforms strong server-based baselines while running entirely offline. These results demonstrate that high-quality VTON is not only feasible but also practical on-device, offering a secure solution for real-world applications.
- Abstract(参考訳): VTON(Virtual try-on)は最近、目覚ましい視力を達成したが、既存のほとんどのシステムは、個人写真をクラウドベースのGPUにアップロードし、プライバシの懸念を高め、デバイス上のデプロイメントを制限する必要がある。
この問題を解決するために,モバイルVTONは高品質なプライバシー保護フレームワークであり,単一のユーザイメージと衣料品画像のみを使用して,商品モバイルデバイス上で完全にオフラインの仮想試用を可能にする。
Mobile-VTONは、知識蒸留、衣服条件生成、衣服アライメントをオンデバイス効率に最適化した統一パイプラインに統合するモジュラーTGTアーキテクチャを導入している。
本枠組みでは,教師の指導と対人学習を組み合わせることで,実世界のイメージ分布の整合性を向上するFGA (Feature-Guided Adversarial) 蒸留戦略を提案する。
GarmentNetは拡散ステップをまたいだ衣服のセマンティクスを保存するためにトラジェクティブ・一貫性の喪失を訓練し、TryonNetは遅延連結と軽量なモーダルコンディショニングを使用して大規模な事前トレーニングを行うことなく、堅牢な衣料対人アライメントを可能にする。
これらのコンポーネントを組み合わせることで、Mobile-VTONは計算オーバーヘッドの少ない高忠実度生成を実現する。
1024 x 768でのVITON-HDとDressCodeの実験では、完全にオフラインで実行しながら、強力なサーバベースのベースラインにマッチまたは性能を向上している。
これらの結果から,高品質なVTONはデバイス上で実現可能であるだけでなく,実用的にも実現可能であることが示唆された。
関連論文リスト
- OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance [85.23143742905695]
画像ベースの仮想トライオン(VTON)は、人間のポーズと身体の制約下での衣服の再レンダリングを通じて、現実的な人物画像の合成を懸念する。
OmniVTON++は、トレーニング不要なVTONフレームワークで、普遍的な適用性のために設計されている。
論文 参考訳(メタデータ) (2026-02-16T08:27:43Z) - OmniVTON: Training-Free Universal Virtual Try-On [53.31945401098557]
イメージベースの仮想トライオン(VTON)技術は、適応性を改善するが、データバイアスと制限された普遍性によって制約される、教師付きインショップアプローチまたは教師なしインザワイルド手法のいずれかに依存している。
OmniVTONは,布地を疎結合にし,テクスチャの忠実さを両立させ,多様な設定に整合性を持たせるための条件付けを行う,初めてのトレーニングフリーユニバーサルVTONフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T16:37:53Z) - ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text [1.7071356210178177]
ITVTONは、Diffusion Transformer (DiT) を単一のジェネレータとして活用し、画像の忠実性を向上させる効率的なフレームワークである。
ITVTONは、幅寸法に沿って衣服や人物の画像を効果的にキャプチャし、両方のテキスト記述を組み込む。
IGPairによる10,257枚の画像対の実験により、実世界のシナリオにおけるITVTONの堅牢性が確認された。
論文 参考訳(メタデータ) (2025-01-28T07:24:15Z) - 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On [17.226542332700607]
本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON法を提案する。
MNVTONと呼ばれる本手法では,テキスト,画像,ビデオの入力を別々に処理するモダリティ固有の正規化戦略を導入する。
その結果,シングルネットワーク・パラダイムはデュアルネットワーク・アプローチのパフォーマンスに匹敵する可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-09T16:49:04Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on [7.46772222515689]
OOTDiffusionは、リアルで制御可能なイメージベースの仮想トライオンのための新しいネットワークアーキテクチャである。
我々は、事前訓練された潜伏拡散モデルのパワーを活用し、UNetを設計して、衣服の詳細特徴を学習する。
VITON-HDおよびDress Codeデータセットに関する実験により、OOTDiffusionが効率よく高品質な試行結果を生成することを示した。
論文 参考訳(メタデータ) (2024-03-04T07:17:44Z) - Stitched ViTs are Flexible Vision Backbones [51.441023711924835]
我々は、縫合可能なニューラルネットワーク(SN-Net)にインスパイアされ、訓練済みのモデルファミリーを縫合することで、リッチワークをカバーする単一のモデルを生成する。
我々は、下流タスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークSN-Netv2を紹介する。
SN-Netv2は、下流の高密度予測においてSN-Netv1よりも優れた性能を示し、柔軟なビジョンバックボーンとして強力な能力を示している。
論文 参考訳(メタデータ) (2023-06-30T22:05:34Z) - PASTA-GAN++: A Versatile Framework for High-Resolution Unpaired Virtual
Try-on [70.12285433529998]
PASTA-GAN++は高解像度の仮想試行のための汎用システムである。
教師なしのトレーニング、任意の衣服カテゴリー、制御可能な衣服編集をサポートする。
論文 参考訳(メタデータ) (2022-07-27T11:47:49Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。