論文の概要: OmniDiT: Extending Diffusion Transformer to Omni-VTON Framework
- arxiv url: http://arxiv.org/abs/2603.19643v2
- Date: Tue, 24 Mar 2026 03:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.580446
- Title: OmniDiT: Extending Diffusion Transformer to Omni-VTON Framework
- Title(参考訳): OmniDiT: Omni-VTONフレームワークへの拡散変換器の拡張
- Authors: Weixuan Zeng, Pengcheng Wei, Huaiqing Wang, Boheng Zhang, Jia Sun, Dewen Fan, Lin HE, Long Chen, Qianqian Gan, Fan Yang, Tingting Gao,
- Abstract要約: 拡散変換器に基づくオムニ仮想トライオンフレームワークであるOmniDiTを提案する。
まず,データを連続的に生成するための自己進化型データキュレーションパイプラインを構築し,大規模なVTONデータセットOmni-TryOnを構築した。
拡散モデルにShifted Window Attentionを導入し、線形複雑化を実現しました。
- 参考スコア(独自算出の注目度): 16.89102936125974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid advancement of Virtual Try-On (VTON) and Try-Off (VTOFF) technologies, existing VTON methods face challenges with fine-grained detail preservation, generalization to complex scenes, complicated pipeline, and efficient inference. To tackle these problems, we propose OmniDiT, an omni Virtual Try-On framework based on the Diffusion Transformer, which combines try-on and try-off tasks into one unified model. Specifically, we first establish a self-evolving data curation pipeline to continuously produce data, and construct a large VTON dataset Omni-TryOn, which contains over 380k diverse and high-quality garment-model-tryon image pairs and detailed text prompts. Then, we employ the token concatenation and design an adaptive position encoding to effectively incorporate multiple reference conditions. To relieve the bottleneck of long sequence computation, we are the first to introduce Shifted Window Attention into the diffusion model, thus achieving a linear complexity. To remedy the performance degradation caused by local window attention, we utilize multiple timestep prediction and an alignment loss to improve generation fidelity. Experiments reveal that, under various complex scenes, our method achieves the best performance in both the model-free VTON and VTOFF tasks and a performance comparable to current SOTA methods in the model-based VTON task.
- Abstract(参考訳): VTON(Virtual Try-On)とVTOFF(Try-Off)技術の急速な進歩にもかかわらず、既存のVTON手法は詳細な詳細保存、複雑なシーンへの一般化、複雑なパイプライン、効率的な推論といった課題に直面している。
これらの問題に対処するために,Diffusion TransformerをベースとしたOmniDiTを提案する。
具体的には,データを連続的に生成するための自己進化型データキュレーションパイプラインを構築し,広義のVTONデータセットOmni-TryOnを構築した。
次に、トークン結合を用いて、複数の参照条件を効果的に組み込む適応的な位置符号化を設計する。
長い列計算のボトルネックを解消するため,拡散モデルにシフトウィンドウ注意を導入し,線形複雑性を実現する。
ローカルウィンドウアテンションによる性能劣化の対策として,複数の時間ステップ予測とアライメント損失を併用して生成精度を向上する。
様々な複雑な場面において,本手法はモデルフリーなVTONタスクとVTOFFタスクの両方において最高の性能と,モデルベースなVTONタスクにおける現在のSOTAメソッドに匹敵する性能を実現する。
関連論文リスト
- PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On [39.47263059671598]
VTONは3つの条件条件の下で強い条件生成を要求する構造化画像編集問題である。
本稿では,PROMOについて述べる。PROMOは,マルチモーダル条件が潜在するFlow Matching DiTバックボーン上に構築された,高速な仮想試行フレームワークである。
標準ベンチマークでは、PROMOは従来のVTON法と一般的な画像編集モデルの両方を視覚的忠実度で上回り、品質とスピードの競争力のバランスを保っている。
論文 参考訳(メタデータ) (2026-03-12T08:41:05Z) - ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text [1.7071356210178177]
ITVTONは、Diffusion Transformer (DiT) を単一のジェネレータとして活用し、画像の忠実性を向上させる効率的なフレームワークである。
ITVTONは、幅寸法に沿って衣服や人物の画像を効果的にキャプチャし、両方のテキスト記述を組み込む。
IGPairによる10,257枚の画像対の実験により、実世界のシナリオにおけるITVTONの堅牢性が確認された。
論文 参考訳(メタデータ) (2025-01-28T07:24:15Z) - 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On [17.226542332700607]
本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON法を提案する。
MNVTONと呼ばれる本手法では,テキスト,画像,ビデオの入力を別々に処理するモダリティ固有の正規化戦略を導入する。
その結果,シングルネットワーク・パラダイムはデュアルネットワーク・アプローチのパフォーマンスに匹敵する可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-09T16:49:04Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。