論文の概要: Fashion-VDM: Video Diffusion Model for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2411.00225v2
- Date: Mon, 04 Nov 2024 16:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:23.008949
- Title: Fashion-VDM: Video Diffusion Model for Virtual Try-On
- Title(参考訳): Fashion-VDM:仮想トライオンのためのビデオ拡散モデル
- Authors: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman,
- Abstract要約: 仮想トライオンビデオを生成するためのビデオ拡散モデル(VDM)であるFashion-VDMを提案する。
入力された衣料品画像と人物映像から,当該衣料品を装着した人の高品質な試着映像を作成することを目的としている。
- 参考スコア(独自算出の注目度): 17.284966713669927
- License:
- Abstract: We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.
- Abstract(参考訳): 仮想トライオンビデオを生成するためのビデオ拡散モデル(VDM)であるFashion-VDMを提案する。
本手法は,入力された衣服画像と人物映像から,被服者の身元と動きを保ちながら,被服者の高品質な試着映像を作成することを目的としている。
画像ベースの仮想試行は印象的な結果を示しているが、既存のビデオ仮想試行法(VVT)には、まだ衣服の詳細と時間的一貫性が欠けている。
これらの問題に対処するために,ビデオ仮想試行のための拡散型アーキテクチャ,コンディショニング入力の制御強化のための分割分類器フリーガイダンス,およびシングルパス64フレーム512pxビデオ生成のためのプログレッシブ時間的トレーニング戦略を提案する。
また,ビデオデータに制限がある場合,ビデオトライオンにおける共同映像訓練の有効性を実証する。
我々の定性的および定量的実験は、我々のアプローチがビデオバーチャルトライオンの新たな最先端を設定できることを示している。
さらなる結果については、プロジェクトのページを参照してください。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers [53.45587477621942]
そこで本研究では,VITON-DiT という,Diton-DiT ベースのビデオトライオンフレームワークを提案する。
具体的には、VITON-DiTは、衣服抽出器、空間-テンポラル denoising DiT、アイデンティティ保存制御ネットから構成される。
また、トレーニング中のランダム選択戦略や、長いビデオ生成を容易にするために、推論時に補間自己回帰(IAR)技術を導入する。
論文 参考訳(メタデータ) (2024-05-28T16:21:03Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion [63.179505586264014]
静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
論文 参考訳(メタデータ) (2023-04-12T17:59:17Z) - SinFusion: Training Diffusion Models on a Single Image or Video [11.473177123332281]
拡散モデルでは画像生成とビデオ生成が大幅に進歩し、GANよりも品質と多様性が向上した。
本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。
我々の画像/ビデオ特異的拡散モデル(SinFusion)は、拡散モデルの条件付け機能を利用して、単一の画像またはビデオの外観とダイナミクスを学習する。
論文 参考訳(メタデータ) (2022-11-21T18:59:33Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。
本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文 参考訳(メタデータ) (2021-09-17T15:12:17Z) - MV-TON: Memory-based Video Virtual Try-on network [49.496817042974456]
メモリベースの仮想トライオンネットワーク(MV-TON)を提案する。
MV-TONは、衣服テンプレートを使わずに、望ましい服を対象者にシームレスに転送し、高精細なリアルな映像を生成する。
実験により,ビデオ仮想試行課題における本手法の有効性と,既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-17T08:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。