論文の概要: DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework
- arxiv url: http://arxiv.org/abs/2508.02807v1
- Date: Mon, 04 Aug 2025 18:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.635357
- Title: DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework
- Title(参考訳): DreamVVT:Stage-Wise Diffusion Transformer Frameworkによるリアルビデオバーチャルトライオンのマスタリング
- Authors: Tongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, Chao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong,
- Abstract要約: VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
- 参考スコア(独自算出の注目度): 26.661935208583756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video virtual try-on (VVT) technology has garnered considerable academic interest owing to its promising applications in e-commerce advertising and entertainment. However, most existing end-to-end methods rely heavily on scarce paired garment-centric datasets and fail to effectively leverage priors of advanced visual models and test-time inputs, making it challenging to accurately preserve fine-grained garment details and maintain temporal consistency in unconstrained scenarios. To address these challenges, we propose DreamVVT, a carefully designed two-stage framework built upon Diffusion Transformers (DiTs), which is inherently capable of leveraging diverse unpaired human-centric data to enhance adaptability in real-world scenarios. To further leverage prior knowledge from pretrained models and test-time inputs, in the first stage, we sample representative frames from the input video and utilize a multi-frame try-on model integrated with a vision-language model (VLM), to synthesize high-fidelity and semantically consistent keyframe try-on images. These images serve as complementary appearance guidance for subsequent video generation. \textbf{In the second stage}, skeleton maps together with fine-grained motion and appearance descriptions are extracted from the input content, and these along with the keyframe try-on images are then fed into a pretrained video generation model enhanced with LoRA adapters. This ensures long-term temporal coherence for unseen regions and enables highly plausible dynamic motions. Extensive quantitative and qualitative experiments demonstrate that DreamVVT surpasses existing methods in preserving detailed garment content and temporal stability in real-world scenarios. Our project page https://virtu-lab.github.io/
- Abstract(参考訳): ビデオバーチャルトライオン(VVT)技術は、eコマース広告やエンターテイメントに将来性があるという期待から、学術的な関心を集めている。
しかし、既存のエンド・ツー・エンドのほとんどの手法は、少ないペアの衣服中心のデータセットに大きく依存しており、高度な視覚モデルとテスト時間入力の先行を効果的に活用できないため、きめ細かい衣服の詳細を正確に保存し、制約のないシナリオで時間的一貫性を維持することは困難である。
これらの課題に対処するため,Deffusion Transformers (DiT) を基盤として設計された2段階のフレームワークであるDreamVVTを提案する。
事前訓練されたモデルとテストタイム入力からの事前知識を更に活用するため、第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実でセマンティックに整合したキーフレーム試行画像を合成する。
これらの画像は、後続のビデオ生成のための補完的な外観ガイダンスとして機能する。
第2段階では、入力内容から微粒な動きや外観記述とともに骨格マップを抽出し、キーフレーム試行画像とともにLoRAアダプタで強化された事前訓練ビデオ生成モデルに入力する。
これにより、目に見えない領域の長期的時間的コヒーレンスを保証し、高い可視な動的運動を可能にする。
大規模な定量的および定性的実験により、ドリームVVTは現実世界のシナリオにおいて、詳細な衣服の内容と時間的安定性を保存するための既存の手法を超越していることが示された。
私たちのプロジェクトページ https://virtu-lab.github.io/
関連論文リスト
- LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [16.0505428363005]
大規模なビデオ拡散変換器上に構築された仮想仮想試行フレームワークMagicTryOnを提案する。
我々は、U-Netアーキテクチャを拡散変換器に置き換え、ビデオの服飾一貫性をモデル化するために完全な自己アテンションを組み合わせる。
提案手法は,既存のSOTA法を総合評価で上回り,現場シナリオに一般化する。
論文 参考訳(メタデータ) (2025-05-27T15:22:02Z) - SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation [75.10635392993748]
視覚に基づく仮想試行(V2TON)方式であるCatV2TONを導入する。
CatV2TONは、衣服と人物の入力を時間的に結合し、画像とビデオのデータセットを混合してトレーニングすることにより、堅牢な試着性能を実現する。
また、背面フレームをフィルタリングし、3Dマスクのスムース化を施した精巧なビデオ試行データセットViViD-Sを提案する。
論文 参考訳(メタデータ) (2025-01-20T08:09:36Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - SalFoM: Dynamic Saliency Prediction with Video Foundation Models [37.25208752620703]
ビデオサリエンシ予測(VSP)は人間の視覚システムと比較して有望な性能を示した。
本稿では,新しいエンコーダデコーダビデオトランスアーキテクチャであるSalFoMを紹介する。
本モデルはUnMasked Teacher(UMT)抽出器を使用し,異種デコーダを意識した時間変換器を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:38:54Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。