論文の概要: UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework
- arxiv url: http://arxiv.org/abs/2512.03918v1
- Date: Wed, 03 Dec 2025 16:03:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:07:11.606561
- Title: UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework
- Title(参考訳): UniMo:2Dビデオと3Dヒューマンモーションを自動回帰フレームワークで統合
- Authors: Youxin Pang, Yong Zhang, Ruizhi Shao, Xiang Deng, Feng Gao, Xu Xiaoming, Xiaoming Wei, Yebin Liu,
- Abstract要約: 統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
- 参考スコア(独自算出の注目度): 54.337290937468175
- License:
- Abstract: We propose UniMo, an innovative autoregressive model for joint modeling of 2D human videos and 3D human motions within a unified framework, enabling simultaneous generation and understanding of these two modalities for the first time. Current methods predominantly focus on generating one modality given another as the condition or integrating either of them with other modalities such as text and audio. Unifying 2D videos and 3D motions for simultaneous optimization and generation remains largely unexplored, presenting significant challenges due to their substantial structural and distributional differences. Inspired by the LLM's ability to unify different modalities, our method models videos and 3D motions as a unified tokens sequence, utilizing separate embedding layers to mitigate distribution gaps. Additionally, we devise a sequence modeling strategy that integrates two distinct tasks within a single framework, proving the effectiveness of unified modeling. Moreover, to efficiently align with visual tokens and preserve 3D spatial information, we design a novel 3D motion tokenizer with a temporal expansion strategy, using a single VQ-VAE to produce quantized motion tokens. It features multiple expert decoders that handle body shapes, translation, global orientation, and body poses for reliable 3D motion reconstruction. Extensive experiments demonstrate that our method simultaneously generates corresponding videos and motions while performing accurate motion capture. This work taps into the capacity of LLMs to fuse diverse data types, paving the way for integrating human-centric information into existing models and potentially enabling multimodal, controllable joint modeling of humans, objects, and scenes.
- Abstract(参考訳): 2次元ビデオと3次元人間の動きを統合された枠組み内でモデリングする革新的な自己回帰モデルUniMoを提案し、これらの2つのモダリティを同時に生成し、初めて理解することができる。
現在の手法は主に、条件として与えられた1つのモダリティを生成すること、あるいはテキストやオーディオのような他のモダリティと統合することに焦点を当てている。
同時最適化と生成のための2Dビデオと3Dモーションの統一はいまだほとんど検討されていないが、構造的および分布的差異がかなり大きいため、大きな課題が提示されている。
LLMの様々なモダリティを統一する能力に触発されて、我々の手法はビデオと3Dモーションを統一トークンシーケンスとしてモデル化し、別々の埋め込み層を利用して分散ギャップを緩和する。
さらに、一つのフレームワークに2つの異なるタスクを統合するシーケンスモデリング戦略を考案し、統一されたモデリングの有効性を実証する。
さらに、視覚的トークンと効率的に協調し、3次元空間情報を保存するために、単一のVQ-VAEを用いて時間的拡張戦略を持つ新しい3次元モーショントークンライザを設計し、量子化されたモーショントークンを生成する。
複数の専門的なデコーダを備えており、身体の形状、翻訳、大域的な向き、そして信頼できる3Dモーション再構成のための身体ポーズを処理している。
広汎な実験により, 高精度なモーションキャプチャを行いながら, 対応する映像と動きを同時に生成できることが実証された。
この研究は、LLMの能力を活用して多様なデータタイプを融合し、人間中心の情報を既存のモデルに統合し、人間、オブジェクト、シーンのマルチモーダルで制御可能なジョイントモデリングを可能にする。
関連論文リスト
- Puppeteer: Rig and Animate Your 3D Models [105.11046762553121]
Puppeteerは、さまざまな3Dオブジェクトの自動リギングとアニメーションの両方に対処する包括的なフレームワークである。
本システムはまず, 自己回帰変換器を用いて, 可塑性骨格構造を推定する。
その後、注意に基づくアーキテクチャにより、皮膚の重量を推定する。
論文 参考訳(メタデータ) (2025-08-14T17:59:31Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。