論文の概要: PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On
- arxiv url: http://arxiv.org/abs/2603.11675v1
- Date: Thu, 12 Mar 2026 08:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.967373
- Title: PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On
- Title(参考訳): PROMO: 高忠実度バーチャルトライオンの使い勝手
- Authors: Haohua Chen, Tianze Zhou, Wei Zhu, Runqi Wang, Yandong Guan, Dejia Song, Yibo Chen, Xu Tang, Yao Hu, Lu Sheng, Zhiyong Wu,
- Abstract要約: VTONは3つの条件条件の下で強い条件生成を要求する構造化画像編集問題である。
本稿では,PROMOについて述べる。PROMOは,マルチモーダル条件が潜在するFlow Matching DiTバックボーン上に構築された,高速な仮想試行フレームワークである。
標準ベンチマークでは、PROMOは従来のVTON法と一般的な画像編集モデルの両方を視覚的忠実度で上回り、品質とスピードの競争力のバランスを保っている。
- 参考スコア(独自算出の注目度): 39.47263059671598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual Try-on (VTON) has become a core capability for online retail, where realistic try-on results provide reliable fit guidance, reduce returns, and benefit both consumers and merchants. Diffusion-based VTON methods achieve photorealistic synthesis, yet often rely on intricate architectures such as auxiliary reference networks and suffer from slow sampling, making the trade-off between fidelity and efficiency a persistent challenge. We approach VTON as a structured image editing problem that demands strong conditional generation under three key requirements: subject preservation, faithful texture transfer, and seamless harmonization. Under this perspective, our training framework is generic and transfers to broader image editing tasks. Moreover, the paired data produced by VTON constitutes a rich supervisory resource for training general-purpose editors. We present PROMO, a promptable virtual try-on framework built upon a Flow Matching DiT backbone with latent multi-modal conditional concatenation. By leveraging conditioning efficiency and self-reference mechanisms, our approach substantially reduces inference overhead. On standard benchmarks, PROMO surpasses both prior VTON methods and general image editing models in visual fidelity while delivering a competitive balance between quality and speed. These results demonstrate that flow-matching transformers, coupled with latent multi-modal conditioning and self-reference acceleration, offer an effective and training-efficient solution for high-quality virtual try-on.
- Abstract(参考訳): VTON(Virtual Try-on)は、リアルな試行結果が信頼性の高い適合ガイダンスを提供し、リターンを低減し、消費者と商店双方に利益をもたらすオンライン小売のコア機能となっている。
拡散に基づくVTON法はフォトリアリスティック合成を実現するが、補助参照ネットワークのような複雑なアーキテクチャに頼り、サンプリングが遅いため、忠実性と効率のトレードオフは永続的な課題である。
我々は,VTONを,主観的保存,忠実なテクスチャ転送,シームレスな調和という3つの要件の下で,強い条件生成を要求する構造化画像編集問題としてアプローチする。
この観点では、トレーニングフレームワークは汎用的で、より広範な画像編集タスクに転送されます。
さらに、VTONが生成するペア化されたデータは、汎用エディターを訓練するための豊富なスーパーバイザリーリソースを構成する。
本稿では,PROMOについて述べる。PROMOは,マルチモーダル条件が潜在するFlow Matching DiTバックボーン上に構築された,高速な仮想試行フレームワークである。
条件付け効率と自己参照機構を活用することにより,提案手法は推論オーバーヘッドを大幅に低減する。
標準的なベンチマークでは、PROMOは従来のVTONメソッドと一般的な画像編集モデルの両方を視覚的忠実度で上回り、品質とスピードの競争力のバランスを保っている。
これらの結果から,流動整合型トランスフォーマーと潜在マルチモーダル条件と自己参照加速度が組み合わさって,高品質な仮想試行錯誤のための効果的かつ訓練効率の高いソリューションを提供することが示された。
関連論文リスト
- VTONGuard: Automatic Detection and Authentication of AI-Generated Virtual Try-On Content [18.869017622630647]
775,000以上の実画像と合成画像を含むベンチマークデータセットであるVTONGuardを提案する。
データセットは、ポーズ、背景、服装スタイルのバリエーションを含む、さまざまな現実世界の状況をカバーする。
本結果は,各手法の強みと弱みを明らかにし,パラダイム間一般化の持続的課題を強調した。
論文 参考訳(メタデータ) (2026-01-20T13:26:06Z) - DEFT-VTON: Efficient Virtual Try-On with Consistent Generalised H-Transform [11.691992316667287]
拡散モデルは、確立された画像合成能力を備えた高品質な仮想試行(VTO)を可能にする。
Doobのh-transform efficient fine-tuning (DEFT) は、下流の画像条件付きVTO能力のための大きな訓練済みの未条件モデルに適応する。
DEFTは事前訓練されたモデルのパラメータを凍結し、条件付きh変換を学習するために小さなh変換ネットワークを訓練する。
論文 参考訳(メタデータ) (2025-09-16T20:11:48Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。
新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。
FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文 参考訳(メタデータ) (2025-04-02T12:40:57Z) - CTSR: Controllable Fidelity-Realness Trade-off Distillation for Real-World Image Super Resolution [52.93785843453579]
実世界の画像超解像は、2つの重要な評価基準が元の画像への忠実さと生成された結果の視覚的現実性である、重要な画像処理タスクである。
本稿では,複数の教師モデルの性能上の利点とともに,忠実度と現実性の両方を幾何学的に分解する蒸留方式を提案する。
いくつかの実世界の画像超解像ベンチマークで行った実験により,本手法が既存の最先端手法を超越していることが証明された。
論文 参考訳(メタデータ) (2025-03-18T14:06:39Z) - ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text [1.7071356210178177]
ITVTONは、Diffusion Transformer (DiT) を単一のジェネレータとして活用し、画像の忠実性を向上させる効率的なフレームワークである。
ITVTONは、幅寸法に沿って衣服や人物の画像を効果的にキャプチャし、両方のテキスト記述を組み込む。
IGPairによる10,257枚の画像対の実験により、実世界のシナリオにおけるITVTONの堅牢性が確認された。
論文 参考訳(メタデータ) (2025-01-28T07:24:15Z) - 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On [17.226542332700607]
本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON法を提案する。
MNVTONと呼ばれる本手法では,テキスト,画像,ビデオの入力を別々に処理するモダリティ固有の正規化戦略を導入する。
その結果,シングルネットワーク・パラダイムはデュアルネットワーク・アプローチのパフォーマンスに匹敵する可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-09T16:49:04Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。