論文の概要: Dress&Dance: Dress up and Dance as You Like It - Technical Preview
- arxiv url: http://arxiv.org/abs/2508.21070v1
- Date: Thu, 28 Aug 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.557625
- Title: Dress&Dance: Dress up and Dance as You Like It - Technical Preview
- Title(参考訳): Dress&Dance: 好きなようにドレスアップして踊る - テクニカルプレビュー
- Authors: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang,
- Abstract要約: Dress&Danceは、高品質な5秒の24FPS仮想トライオンビデオを生成するビデオ拡散フレームワークである。
当社のアプローチでは、1つのユーザイメージが必要で、さまざまなトップ、ボトム、ワンピースの衣服、同時にトップとボトムを1回のパスで試着することができます。
- 参考スコア(独自算出の注目度): 55.78895889755938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Dress&Dance, a video diffusion framework that generates high quality 5-second-long 24 FPS virtual try-on videos at 1152x720 resolution of a user wearing desired garments while moving in accordance with a given reference video. Our approach requires a single user image and supports a range of tops, bottoms, and one-piece garments, as well as simultaneous tops and bottoms try-on in a single pass. Key to our framework is CondNet, a novel conditioning network that leverages attention to unify multi-modal inputs (text, images, and videos), thereby enhancing garment registration and motion fidelity. CondNet is trained on heterogeneous training data, combining limited video data and a larger, more readily available image dataset, in a multistage progressive manner. Dress&Dance outperforms existing open source and commercial solutions and enables a high quality and flexible try-on experience.
- Abstract(参考訳): Dress&Danceは高品質な5秒長24FPS仮想試着ビデオを生成するビデオ拡散フレームワークで、所与の基準ビデオに従って移動しながら、所望の服装を着るユーザの1152×720解像度を示す。
当社のアプローチでは、1つのユーザイメージが必要で、さまざまなトップ、ボトム、ワンピースの衣服、同時にトップとボトムを1回のパスで試着することができます。
当社のフレームワークのキーとなるのは,マルチモーダル入力(テキスト,画像,ビデオ)の統一に注意を傾ける新しいコンディショニングネットワークであるCondNetである。
CondNetは異質なトレーニングデータに基づいてトレーニングされており、限られたビデオデータとより簡単に利用できる画像データセットを多段階のプログレッシブな方法で組み合わせている。
Dress&Danceは、既存のオープンソースおよび商用ソリューションより優れており、高品質で柔軟な試用体験を可能にする。
関連論文リスト
- Fashion-VDM: Video Diffusion Model for Virtual Try-On [17.284966713669927]
仮想トライオンビデオを生成するためのビデオ拡散モデル(VDM)であるFashion-VDMを提案する。
入力された衣料品画像と人物映像から,当該衣料品を装着した人の高品質な試着映像を作成することを目的としている。
論文 参考訳(メタデータ) (2024-10-31T21:52:33Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - Dressing in the Wild by Watching Dance Videos [69.7692630502019]
本稿では,現実の場面における仮想試行に参画し,現実性と自然性の向上をもたらす。
我々は,衣服の移動をより効果的に進める,wFlowと呼ばれる新しい生成ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。