論文の概要: Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction
- arxiv url: http://arxiv.org/abs/2505.16980v1
- Date: Thu, 22 May 2025 17:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.52687
- Title: Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction
- Title(参考訳): ダイナミック・ポーズ・インタラクションによる時間一貫性ビデオバーチャル・トライオンの提案
- Authors: Dong Li, Wenqi Zhong, Wei Yu, Yingwei Pan, Dingwen Zhang, Ting Yao, Junwei Han, Tao Mei,
- Abstract要約: Video Virtual try-onは、被験者に特定の衣服を装着したビデオフィギュアをシームレスに着ることを目的としている。
ビデオ仮想試行のための動的ポーズ相互作用を探索するために拡散モデルを活用するために,動的ポーズ相互作用拡散モデル(DPIDM)を提案する。
DPIDMは、時間的整合性を高めるために、連続フレーム間の時間的規則化された注意損失に乗じる。
- 参考スコア(独自算出の注目度): 142.66410908560582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video virtual try-on aims to seamlessly dress a subject in a video with a specific garment. The primary challenge involves preserving the visual authenticity of the garment while dynamically adapting to the pose and physique of the subject. While existing methods have predominantly focused on image-based virtual try-on, extending these techniques directly to videos often results in temporal inconsistencies. Most current video virtual try-on approaches alleviate this challenge by incorporating temporal modules, yet still overlook the critical spatiotemporal pose interactions between human and garment. Effective pose interactions in videos should not only consider spatial alignment between human and garment poses in each frame but also account for the temporal dynamics of human poses throughout the entire video. With such motivation, we propose a new framework, namely Dynamic Pose Interaction Diffusion Models (DPIDM), to leverage diffusion models to delve into dynamic pose interactions for video virtual try-on. Technically, DPIDM introduces a skeleton-based pose adapter to integrate synchronized human and garment poses into the denoising network. A hierarchical attention module is then exquisitely designed to model intra-frame human-garment pose interactions and long-term human pose dynamics across frames through pose-aware spatial and temporal attention mechanisms. Moreover, DPIDM capitalizes on a temporal regularized attention loss between consecutive frames to enhance temporal consistency. Extensive experiments conducted on VITON-HD, VVT and ViViD datasets demonstrate the superiority of our DPIDM against the baseline methods. Notably, DPIDM achieves VFID score of 0.506 on VVT dataset, leading to 60.5% improvement over the state-of-the-art GPD-VVTO approach.
- Abstract(参考訳): ビデオの仮想試着は、特定の衣服で被写体をシームレスに着替えることを目的としている。
第一の課題は、被写体のポーズや体格に動的に適応しながら、衣服の視覚的正当性を維持することである。
既存の手法は主に画像ベースの仮想試行に重点を置いているが、これらのテクニックを直接ビデオに拡張することで時間的矛盾が生じることが多い。
現在のビデオバーチャル・トライオンのアプローチのほとんどは、時間的モジュールを組み込むことによってこの課題を軽減するが、それでも人間と衣服の間の重要な時空間的ポーズの相互作用を見落としている。
ビデオにおける効果的なポーズの相互作用は、各フレームにおける人間と衣服のポーズの空間的アライメントだけでなく、ビデオ全体を通しての人間のポーズの時間的ダイナミクスも考慮すべきである。
このようなモチベーションを生かして,拡散モデルを利用してビデオ仮想試行のための動的ポーズ相互作用を探索する新しいフレームワーク,DPIDM(Dynamic Pose Interaction Diffusion Models)を提案する。
技術的には、DPIDMは、シンクロナイズされた人間と衣服のポーズをデノナイジングネットワークに統合するスケルトンベースのポーズアダプタを導入している。
階層型アテンションモジュールは、フレーム内のヒューマン・ガーメント・ポーズの相互作用をモデル化し、空間的および時間的アテンションのメカニズムを通じて、フレーム全体にわたる長期的なヒューマン・ポーズのダイナミクスをモデル化するように特別に設計される。
さらに、DPIDMは、連続フレーム間の時間的規則化された注意損失に乗じて、時間的一貫性を高める。
VITON-HD, VVT, ViViDデータセットを用いた大規模な実験により, ベースライン法に対するDPIDMの優位性を実証した。
特に、DPIDMはVVTデータセットで0.506のVFIDスコアを獲得し、最先端のGPD-VVTOアプローチよりも60.5%改善されている。
関連論文リスト
- InterAnimate: Taming Region-aware Diffusion Model for Realistic Human Interaction Animation [47.103725372531784]
本稿では,現実的な顔のインタラクションをアニメーションするための新しい動作パラダイムを提案する。
本手法は, 解剖学的・時間的接触力学と生体力学的に妥当な変形効果を同時に学習する。
結果は、InterAnimateが非常にリアルなアニメーションを生成し、新しいベンチマークを設定していることを示している。
論文 参考訳(メタデータ) (2025-04-15T06:32:45Z) - RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency [26.410982262831975]
RealVVTは、動的ビデオコンテキスト内の安定性とリアリズムを高めるために設計されたフォトリアリスティックビデオ仮想トライオンフレームワークである。
我々のアプローチは、シングルイメージとビデオVTOの両方のタスクにおいて、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-15T09:22:38Z) - Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism [52.9091817868613]
ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。
これまでの研究は主に、製品服のイメージを単純な人間のポーズでビデオに移すことに重点を置いてきた。
本稿では,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
論文 参考訳(メタデータ) (2024-12-13T03:20:53Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。