論文の概要: From Mannequin to Human: A Pose-Aware and Identity-Preserving Video Generation Framework for Lifelike Clothing Display
- arxiv url: http://arxiv.org/abs/2510.16833v1
- Date: Sun, 19 Oct 2025 13:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.172677
- Title: From Mannequin to Human: A Pose-Aware and Identity-Preserving Video Generation Framework for Lifelike Clothing Display
- Title(参考訳): Mannequinから人間へ:ライフライクな衣料品ディスプレイのためのPose-AwareとIdentity-Preservingビデオ生成フレームワーク
- Authors: Xiangyu Mu, Dongliang Zhou, Jie Hou, Haijun Zhang, Weili Guan,
- Abstract要約: Mannequin-to- Human(M2H)ビデオ生成は、マネキンの映像からアイデンティティ制御可能な、フォトリアリスティックな人間のビデオを合成することを目的としている。
M2HVideoには動的なポーズ対応のヘッドエンコーダが組み込まれており、顔のセマンティクスと身体のポーズを融合させ、フレーム全体に一貫したアイデンティティの埋め込みを生成する。
- 参考スコア(独自算出の注目度): 32.46990852260284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mannequin-based clothing displays offer a cost-effective alternative to real-model showcases for online fashion presentation, but lack realism and expressive detail. To overcome this limitation, we introduce a new task called mannequin-to-human (M2H) video generation, which aims to synthesize identity-controllable, photorealistic human videos from footage of mannequins. We propose M2HVideo, a pose-aware and identity-preserving video generation framework that addresses two key challenges: the misalignment between head and body motion, and identity drift caused by temporal modeling. In particular, M2HVideo incorporates a dynamic pose-aware head encoder that fuses facial semantics with body pose to produce consistent identity embeddings across frames. To address the loss of fine facial details due to latent space compression, we introduce a mirror loss applied in pixel space through a denoising diffusion implicit model (DDIM)-based one-step denoising. Additionally, we design a distribution-aware adapter that aligns statistical distributions of identity and clothing features to enhance temporal coherence. Extensive experiments on the UBC fashion dataset, our self-constructed ASOS dataset, and the newly collected MannequinVideos dataset captured on-site demonstrate that M2HVideo achieves superior performance in terms of clothing consistency, identity preservation, and video fidelity in comparison to state-of-the-art methods.
- Abstract(参考訳): マンネキンをベースとした衣料品展示は、オンラインファッションショーのリアルモデルショーケースに代わる費用対効果を提供するが、現実主義と表現的な詳細は欠落している。
この制限を克服するために、マネキンの映像からアイデンティティ制御可能なフォトリアリスティックな人間の映像を合成することを目的とした、マネキン対人間(M2H)ビデオ生成という新しいタスクを導入する。
本稿では,頭部と身体の動きの不一致と時間的モデリングによるアイデンティティドリフトという2つの課題に対処する,ポーズ認識とアイデンティティ保存のためのビデオ生成フレームワークであるM2HVideoを提案する。
特に、M2HVideoには動的なポーズ対応ヘッドエンコーダが組み込まれている。
遅延空間圧縮による顔の細部の詳細の喪失に対処するため,DDIMに基づく1段階雑音除去モデルを用いて画素空間に印加されたミラーロスを導入する。
さらに、時間的コヒーレンスを高めるために、IDと衣服の特徴の統計分布を整列する分布対応アダプタを設計する。
UBCのファッションデータセット,自己構築されたASOSデータセット,および新たに収集されたMannequinVideosデータセットに関する大規模な実験により,M2HVideoは,最先端の手法と比較して,衣服の整合性,アイデンティティの保存,ビデオの忠実性において優れたパフォーマンスを発揮することが示された。
関連論文リスト
- Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction [142.66410908560582]
Video Virtual try-onは、被験者に特定の衣服を装着したビデオフィギュアをシームレスに着ることを目的としている。
ビデオ仮想試行のための動的ポーズ相互作用を探索するために拡散モデルを活用するために,動的ポーズ相互作用拡散モデル(DPIDM)を提案する。
DPIDMは、時間的整合性を高めるために、連続フレーム間の時間的規則化された注意損失に乗じる。
論文 参考訳(メタデータ) (2025-05-22T17:52:34Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。