論文の概要: RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency
- arxiv url: http://arxiv.org/abs/2501.08682v1
- Date: Wed, 15 Jan 2025 09:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:45.339784
- Title: RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency
- Title(参考訳): RealVVT:時空間整合性を利用したフォトリアリスティックビデオバーチャルトライオンを目指して
- Authors: Siqi Li, Zhengkai Jiang, Jiawei Zhou, Zhihong Liu, Xiaowei Chi, Haoqian Wang,
- Abstract要約: RealVVTは、動的ビデオコンテキスト内の安定性とリアリズムを高めるために設計されたフォトリアリスティックビデオ仮想トライオンフレームワークである。
我々のアプローチは、シングルイメージとビデオVTOの両方のタスクにおいて、既存の最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 26.410982262831975
- License:
- Abstract: Virtual try-on has emerged as a pivotal task at the intersection of computer vision and fashion, aimed at digitally simulating how clothing items fit on the human body. Despite notable progress in single-image virtual try-on (VTO), current methodologies often struggle to preserve a consistent and authentic appearance of clothing across extended video sequences. This challenge arises from the complexities of capturing dynamic human pose and maintaining target clothing characteristics. We leverage pre-existing video foundation models to introduce RealVVT, a photoRealistic Video Virtual Try-on framework tailored to bolster stability and realism within dynamic video contexts. Our methodology encompasses a Clothing & Temporal Consistency strategy, an Agnostic-guided Attention Focus Loss mechanism to ensure spatial consistency, and a Pose-guided Long Video VTO technique adept at handling extended video sequences.Extensive experiments across various datasets confirms that our approach outperforms existing state-of-the-art models in both single-image and video VTO tasks, offering a viable solution for practical applications within the realms of fashion e-commerce and virtual fitting environments.
- Abstract(参考訳): 仮想試行はコンピュータビジョンとファッションの交差点で重要なタスクとして現れ、衣服が人間の体にどのようにフィットするかをデジタルでシミュレートすることを目的としている。
シングルイメージバーチャルトライオン(VTO)の顕著な進歩にもかかわらず、現在の方法論は、拡張されたビデオシーケンスにわたる衣服の一貫性と信頼性の維持に苦慮することが多い。
この課題は、ダイナミックな人間のポーズを捉え、標的となる衣服の特徴を維持する複雑さから生じる。
我々は、既存のビデオ基盤モデルを活用して、動的ビデオコンテキスト内の安定性とリアリズムを高めるために、フォトリアリスティックビデオ仮想トライオンフレームワークであるRealVVTを導入する。
提案手法は,空間的整合性を確保するためのアグノスティック・ガイダンス・アテンション・フォーカス・ロスト・メカニズム,および拡張ビデオシーケンスの処理に適するポス・ガイド・ロングビデオVTO技術を含む。多種多様なデータセットにわたる大規模な実験により,我々のアプローチが単一画像およびビデオVTOタスクにおいて既存の最先端モデルより優れており,ファッションeコマースと仮想適合環境の領域における実用的ソリューションとして実現可能であることが確認された。
関連論文リスト
- Fashion-VDM: Video Diffusion Model for Virtual Try-On [17.284966713669927]
仮想トライオンビデオを生成するためのビデオ拡散モデル(VDM)であるFashion-VDMを提案する。
入力された衣料品画像と人物映像から,当該衣料品を装着した人の高品質な試着映像を作成することを目的としている。
論文 参考訳(メタデータ) (2024-10-31T21:52:33Z) - SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [64.28263381647628]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Self-Supervised Vision Transformer for Enhanced Virtual Clothes Try-On [21.422611451978863]
本稿では,仮想衣料試着において,自己監督型視覚変換器(ViT)と拡散モデルを用いた革新的なアプローチを提案する。
提案手法は,ViTが生成するローカル衣料品のイメージ埋め込みとグローバルな衣料品との対比により,ディテールの強調を強調する。
実験結果は、仮想試行体験における現実性と詳細の精度の大幅な進歩を示す。
論文 参考訳(メタデータ) (2024-06-15T07:46:22Z) - VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers [53.45587477621942]
そこで本研究では,VITON-DiT という,Diton-DiT ベースのビデオトライオンフレームワークを提案する。
具体的には、VITON-DiTは、衣服抽出器、空間-テンポラル denoising DiT、アイデンティティ保存制御ネットから構成される。
また、トレーニング中のランダム選択戦略や、長いビデオ生成を容易にするために、推論時に補間自己回帰(IAR)技術を導入する。
論文 参考訳(メタデータ) (2024-05-28T16:21:03Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。