論文の概要: CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos
- arxiv url: http://arxiv.org/abs/2601.10632v1
- Date: Thu, 15 Jan 2026 17:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.251843
- Title: CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos
- Title(参考訳): CoMoVi:3Dモーションとリアルビデオの共同生成
- Authors: Chengfeng Zhao, Jiazhi Shu, Yubo Zhao, Tianyu Huang, Jiahao Lu, Zekai Gu, Chengwei Ren, Zhiyang Dou, Qing Shuai, Yuan Liu,
- Abstract要約: CoMoViは、2つのビデオ拡散モデル(VDM)を結合して、単一の拡散認知ループ内で3Dの人の動きとビデオを同期的に生成する、共同生成フレームワークである。
本稿では,事前学習したVDMのパワーを継承する有効な2次元人体動作表現を提案する。
次に,人間の動きと映像生成過程を相互特徴相互作用と3D-2Dクロスアテンションで結合する2分岐拡散モデルを設計する。
- 参考スコア(独自算出の注目度): 34.06338037793912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we find that the generation of 3D human motions and 2D human videos is intrinsically coupled. 3D motions provide the structural prior for plausibility and consistency in videos, while pre-trained video models offer strong generalization capabilities for motions, which necessitate coupling their generation processes. Based on this, we present CoMoVi, a co-generative framework that couples two video diffusion models (VDMs) to generate 3D human motions and videos synchronously within a single diffusion denoising loop. To achieve this, we first propose an effective 2D human motion representation that can inherit the powerful prior of pre-trained VDMs. Then, we design a dual-branch diffusion model to couple human motion and video generation process with mutual feature interaction and 3D-2D cross attentions. Moreover, we curate CoMoVi Dataset, a large-scale real-world human video dataset with text and motion annotations, covering diverse and challenging human motions. Extensive experiments demonstrate the effectiveness of our method in both 3D human motion and video generation tasks.
- Abstract(参考訳): 本稿では,3次元人体の動きと2次元人体映像の生成が本質的に結合していることを見出した。
3Dモーションは、ビデオの可視性と一貫性に関する構造的な前提を提供する一方で、事前訓練されたビデオモデルは、それらの生成プロセスを結合する必要のあるモーションに対して強力な一般化機能を提供する。
これに基づいて,2つのビデオ拡散モデル(VDM)を結合して,1つの拡散復調ループ内で3次元の動きと映像を同期的に生成するコジェネティブフレームワークCoMoViを提案する。
そこで我々はまず,事前学習したVDMのパワーを継承する有効な2次元人体動作表現を提案する。
そこで我々は,人間の動きと映像生成過程を相互特徴相互作用と3D-2Dクロスアテンションで結合する2分岐拡散モデルの設計を行った。
さらに、テキストとモーションアノテーションを備えた大規模な実世界のヒューマンビデオデータセットであるCoMoVi Datasetをキュレートし、多種多様な人間の動きをカバーした。
広汎な実験により,人間の3次元動作と映像生成の両タスクにおいて,本手法の有効性が示された。
関連論文リスト
- EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling [107.8379802891245]
本稿では,人間の映像生成過程を2つの構成要素,すなわち構造生成と外観生成に分解するMOSAを提案する。
MoSAは、ほとんどの評価指標で既存のアプローチを大幅に上回っている。
また,既存の人的ビデオデータセットよりも複雑で多様な動きを特徴とする大規模な人的ビデオデータセットも提案する。
論文 参考訳(メタデータ) (2025-08-24T15:20:24Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。
本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。
VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文 参考訳(メタデータ) (2024-04-15T06:38:09Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。