論文の概要: MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on
- arxiv url: http://arxiv.org/abs/2505.21325v2
- Date: Wed, 28 May 2025 12:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.793165
- Title: MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on
- Title(参考訳): MagicTryOn:ガーメント保存型バーチャルトライオン用ハーネスング拡散トランスフォーマー
- Authors: Guangyuan Li, Siming Zheng, Hao Zhang, Jinwei Chen, Junsheng Luan, Binkai Ou, Lei Zhao, Bo Li, Peng-Tao Jiang,
- Abstract要約: 大規模なビデオ拡散変換器上に構築された仮想仮想試行フレームワークMagicTryOnを提案する。
我々は、U-Netアーキテクチャを拡散変換器に置き換え、ビデオの服飾一貫性をモデル化するために完全な自己アテンションを組み合わせる。
提案手法は,既存のSOTA法を総合評価で上回り,現場シナリオに一般化する。
- 参考スコア(独自算出の注目度): 16.0505428363005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Virtual Try-On (VVT) aims to simulate the natural appearance of garments across consecutive video frames, capturing their dynamic variations and interactions with human body motion. However, current VVT methods still face challenges in terms of spatiotemporal consistency and garment content preservation. First, they use diffusion models based on the U-Net, which are limited in their expressive capability and struggle to reconstruct complex details. Second, they adopt a separative modeling approach for spatial and temporal attention, which hinders the effective capture of structural relationships and dynamic consistency across frames. Third, their expression of garment details remains insufficient, affecting the realism and stability of the overall synthesized results, especially during human motion. To address the above challenges, we propose MagicTryOn, a video virtual try-on framework built upon the large-scale video diffusion Transformer. We replace the U-Net architecture with a diffusion Transformer and combine full self-attention to jointly model the spatiotemporal consistency of videos. We design a coarse-to-fine garment preservation strategy. The coarse strategy integrates garment tokens during the embedding stage, while the fine strategy incorporates multiple garment-based conditions, such as semantics, textures, and contour lines during the denoising stage. Moreover, we introduce a mask-aware loss to further optimize garment region fidelity. Extensive experiments on both image and video try-on datasets demonstrate that our method outperforms existing SOTA methods in comprehensive evaluations and generalizes to in-the-wild scenarios.
- Abstract(参考訳): Video Virtual Try-On(VVT)は、連続するビデオフレームにまたがる衣服の自然な外観をシミュレートすることを目的としている。
しかしながら、現在のVVT法は時空間整合性や衣料品の保存という観点ではまだ課題に直面している。
まず、U-Netに基づく拡散モデルを使用し、その表現能力に制限があり、複雑な詳細を再構築するのに苦労する。
第二に、空間的および時間的注意に対する分離的モデリングアプローチを採用し、フレーム間の構造的関係と動的一貫性の効果的な捕捉を妨げる。
第3に、衣服の詳細表現が不十分であり、特にヒトの動作において、総合的な合成結果のリアリズムと安定性に影響を及ぼす。
以上の課題に対処するため,大規模なビデオ拡散変換器上に構築された仮想試行フレームワークであるMagicTryOnを提案する。
我々は、U-Netアーキテクチャを拡散変換器に置き換え、完全な自己アテンションを組み合わせ、ビデオの時空間一貫性を共同でモデル化する。
我々は粗大な衣服保存戦略を設計する。
粗い戦略は埋め込み段階で衣服トークンを統合するが、細かい戦略は意味論、テクスチャ、輪郭線といった複数の衣服ベースの条件を取り入れている。
さらに,衣服領域の忠実度をさらに最適化するためにマスク認識損失を導入する。
画像とビデオの両方の試行データセットに対する大規模な実験により,本手法は既存のSOTA手法を総合評価において上回り,現場シナリオに一般化することを示した。
関連論文リスト
- Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction [142.66410908560582]
Video Virtual try-onは、被験者に特定の衣服を装着したビデオフィギュアをシームレスに着ることを目的としている。
ビデオ仮想試行のための動的ポーズ相互作用を探索するために拡散モデルを活用するために,動的ポーズ相互作用拡散モデル(DPIDM)を提案する。
DPIDMは、時間的整合性を高めるために、連続フレーム間の時間的規則化された注意損失に乗じる。
論文 参考訳(メタデータ) (2025-05-22T17:52:34Z) - CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation [75.10635392993748]
視覚に基づく仮想試行(V2TON)方式であるCatV2TONを導入する。
CatV2TONは、衣服と人物の入力を時間的に結合し、画像とビデオのデータセットを混合してトレーニングすることにより、堅牢な試着性能を実現する。
また、背面フレームをフィルタリングし、3Dマスクのスムース化を施した精巧なビデオ試行データセットViViD-Sを提案する。
論文 参考訳(メタデータ) (2025-01-20T08:09:36Z) - RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency [26.410982262831975]
RealVVTは、動的ビデオコンテキスト内の安定性とリアリズムを高めるために設計されたフォトリアリスティックビデオ仮想トライオンフレームワークである。
我々のアプローチは、シングルイメージとビデオVTOの両方のタスクにおいて、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-15T09:22:38Z) - ODPG: Outfitting Diffusion with Pose Guided Condition [2.5602836891933074]
VTON技術は、物理的に試すことなく、服がどのように見えるかを視覚化する。
GAN(Geneversarative Adrial Networks)と拡散モデル(Diffusion model)を用いた従来のVTON手法は、高いリアリズムの実現と動的なポーズの処理において課題に直面している。
本稿では,複数の条件入力を持つ潜伏拡散モデルを利用した新しい手法であるFOPS(Outfitting Diffusion with Pose Guided Condition)を提案する。
論文 参考訳(メタデータ) (2025-01-12T10:30:27Z) - Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism [52.9091817868613]
ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。
これまでの研究は主に、製品服のイメージを単純な人間のポーズでビデオに移すことに重点を置いてきた。
本稿では,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
論文 参考訳(メタデータ) (2024-12-13T03:20:53Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - ClothFormer:Taming Video Virtual Try-on in All Module [12.084652803378598]
ビデオの仮想試着は、対象の服を時間的に一貫した結果でビデオの人物に合わせることを目的としている。
ClothFormerフレームワークは、複雑な環境で現実的で時間的な一貫性のある結果をうまく合成する。
論文 参考訳(メタデータ) (2022-04-26T08:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。