論文の概要: DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2506.10568v1
- Date: Thu, 12 Jun 2025 10:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.68962
- Title: DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
- Title(参考訳): DreamActor-H1:Motion-Designed Diffusion Transformersによる高忠実なヒューマンプロダクションデモビデオ生成
- Authors: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou,
- Abstract要約: 電子商取引とデジタルマーケティングでは、高忠実な人間製品デモビデオを生成することが重要である。
人間のアイデンティティと製品固有の詳細を保存するための拡散変換器(DiT)ベースのフレームワークを提案する。
我々は3Dボディーメッシュテンプレートと製品バウンディングボックスを用いて、正確な動作ガイダンスを提供し、手ジェスチャーと製品配置の直感的なアライメントを可能にする。
- 参考スコア(独自算出の注目度): 30.583932208752877
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.
- Abstract(参考訳): 電子商取引とデジタルマーケティングでは、効果的な製品プレゼンテーションにおいて、高忠実な人為的製品デモビデオを生成することが重要である。
しかしながら、既存のほとんどのフレームワークは、人間と製品の両方のアイデンティティを保存できないか、または人間の生産的空間的関係の理解が欠如しているか、非現実的な表現と非自然的な相互作用をもたらす。
これらの課題に対処するため,Diffusion Transformer (DiT) ベースのフレームワークを提案する。
本手法は, ロゴやテクスチャなど, 人の身元や製品固有の細部を同時に保存し, 対の製品参照情報を注入し, 追加のマスク付きクロスアテンション機構を利用する。
我々は3Dボディーメッシュテンプレートと製品バウンディングボックスを用いて、正確な動作ガイダンスを提供し、手ジェスチャーと製品配置の直感的なアライメントを可能にする。
さらに、構造化テキストエンコーディングはカテゴリレベルのセマンティクスを組み込むために使われ、フレーム間の小さな回転変化時に3次元の一貫性を高める。
広範囲なデータ拡張戦略を備えたハイブリッドデータセットに基づいて、我々のアプローチは、人間と製品の両方のアイデンティティの整合性を維持し、現実的な実演動作を生成する、最先端の技術よりも優れています。
プロジェクトページ: https://submit2025-dream.github.io/DreamActor-H1/
関連論文リスト
- SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文 参考訳(メタデータ) (2025-03-21T08:40:35Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - VirtualModel: Generating Object-ID-retentive Human-object Interaction Image by Diffusion Model for E-commerce Marketing [20.998016266794952]
Controlnet[36]、T2I-adapter[20]、HumanSD[10]といった既存の作品では、ポーズ条件に基づいて人間の画像を生成する優れた能力を示している。
本稿では,まず,eコマースマーケティングのための新たなヒューマン画像生成タスク,すなわち,オブジェクトID拘束型ヒューマンオブジェクトインタラクション画像生成(OHG)を定義する。
本稿では,製品カテゴリの表示や,人間とオブジェクトのインタラクションのタイプをサポートする,製品用のヒューマンイメージを生成するためのVirtualModelフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T11:05:41Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - An Identity-Preserved Framework for Human Motion Transfer [3.6286856791379463]
HMT(Human Motion Transfer)は、被写体の動きを模倣することにより、被写体のためのビデオクリップを生成することを目的とする。
従来の手法は高品質なビデオでは良い結果を得たが、ソースとターゲットの動きから個々の動き情報を見失った。
我々は、textitIDPresと呼ばれる新しいID保存型HMTネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-14T10:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。