論文の概要: Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism
- arxiv url: http://arxiv.org/abs/2412.09822v1
- Date: Fri, 13 Dec 2024 03:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:59.998209
- Title: Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism
- Title(参考訳): ダイナミックトライオン:ダイナミックアテンション機構を用いたビデオバーチャルトライオンのモデリング
- Authors: Jun Zheng, Jing Wang, Fuwei Zhao, Xujie Zhang, Xiaodan Liang,
- Abstract要約: ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。
これまでの研究は主に、製品服のイメージを単純な人間のポーズでビデオに移すことに重点を置いてきた。
本稿では,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
- 参考スコア(独自算出の注目度): 52.9091817868613
- License:
- Abstract: Video try-on stands as a promising area for its tremendous real-world potential. Previous research on video try-on has primarily focused on transferring product clothing images to videos with simple human poses, while performing poorly with complex movements. To better preserve clothing details, those approaches are armed with an additional garment encoder, resulting in higher computational resource consumption. The primary challenges in this domain are twofold: (1) leveraging the garment encoder's capabilities in video try-on while lowering computational requirements; (2) ensuring temporal consistency in the synthesis of human body parts, especially during rapid movements. To tackle these issues, we propose a novel video try-on framework based on Diffusion Transformer(DiT), named Dynamic Try-On. To reduce computational overhead, we adopt a straightforward approach by utilizing the DiT backbone itself as the garment encoder and employing a dynamic feature fusion module to store and integrate garment features. To ensure temporal consistency of human body parts, we introduce a limb-aware dynamic attention module that enforces the DiT backbone to focus on the regions of human limbs during the denoising process. Extensive experiments demonstrate the superiority of Dynamic Try-On in generating stable and smooth try-on results, even for videos featuring complicated human postures.
- Abstract(参考訳): ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。
ビデオ試着に関するこれまでの研究は、製品服のイメージを単純な人間のポーズでビデオに転送することに重点を置いていたが、複雑な動きでは不十分だった。
衣服の詳細をよりよく保存するために、これらのアプローチには追加の衣料エンコーダが組み込まれており、計算資源の消費が増大する。
この領域の主な課題は,(1)ビデオ試着における衣服エンコーダの機能を活用すること,(2)人体部品の合成における時間的整合性を確保すること,の2つである。
これらの課題に対処するため,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
計算オーバーヘッドを低減するため,DiTバックボーン自体を衣料エンコーダとして利用し,動的特徴融合モジュールを用いて衣料特徴の保存・統合を行う。
人体部分の時間的整合性を確保するため,足首を意識したダイナミックアテンションモジュールを導入する。
大規模な実験は、人間の複雑な姿勢を特徴とするビデオであっても、安定したスムーズな試行結果を生成する上で、ダイナミックトライオンの優位性を実証している。
関連論文リスト
- X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - AniDress: Animatable Loose-Dressed Avatar from Sparse Views Using
Garment Rigging Model [58.035758145894846]
AniDressは、非常にスパースなマルチビュービデオを用いて、ゆるい服装でアニマタブルな人間のアバターを生成する新しい方法である。
身体運動と衣服運動の両方に条件付されたポーズ駆動型変形可能なニューラルラディアンス場を導入し、両方の部品を明示的に制御する。
本手法は,身体から高度に逸脱する自然の衣服のダイナミックスを描画し,目に見えない景色とポーズの両方に一般化することができる。
論文 参考訳(メタデータ) (2024-01-27T08:48:18Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。