論文の概要: Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation
- arxiv url: http://arxiv.org/abs/2602.02401v1
- Date: Mon, 02 Feb 2026 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.342509
- Title: Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation
- Title(参考訳): スーパーマン:人間の運動知覚と生成のための骨格と視覚の統合
- Authors: Xinshun Wang, Peiming Li, Ziyi Wang, Zhongbin Fang, Zhichao Deng, Songtao Wu, Jason Li, Mengyuan Liu,
- Abstract要約: Supermanは、視覚知覚を時間的、骨格に基づくモーション生成にブリッジする統合フレームワークである。
このモジュールは、多種多様な時間的入力を柔軟に処理し、ビデオ(知覚)からスケルトンに基づく動き予測とin-betweening(世代)による3Dスケルトンポーズを推定する。
- 参考スコア(独自算出の注目度): 32.57062686780495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion analysis tasks, such as temporal 3D pose estimation, motion prediction, and motion in-betweening, play an essential role in computer vision. However, current paradigms suffer from severe fragmentation. First, the field is split between ``perception'' models that understand motion from video but only output text, and ``generation'' models that cannot perceive from raw visual input. Second, generative MLLMs are often limited to single-frame, static poses using dense, parametric SMPL models, failing to handle temporal motion. Third, existing motion vocabularies are built from skeleton data alone, severing the link to the visual domain. To address these challenges, we introduce Superman, a unified framework that bridges visual perception with temporal, skeleton-based motion generation. Our solution is twofold. First, to overcome the modality disconnect, we propose a Vision-Guided Motion Tokenizer. Leveraging the natural geometric alignment between 3D skeletons and visual data, this module pioneers robust joint learning from both modalities, creating a unified, cross-modal motion vocabulary. Second, grounded in this motion language, a single, unified MLLM architecture is trained to handle all tasks. This module flexibly processes diverse, temporal inputs, unifying 3D skeleton pose estimation from video (perception) with skeleton-based motion prediction and in-betweening (generation). Extensive experiments on standard benchmarks, including Human3.6M, demonstrate that our unified method achieves state-of-the-art or competitive performance across all motion tasks. This showcases a more efficient and scalable path for generative motion analysis using skeletons.
- Abstract(参考訳): 時間的3Dポーズ推定、動き予測、動き中の動きといった人間の動作分析タスクは、コンピュータビジョンにおいて重要な役割を果たす。
しかし、現在のパラダイムは深刻な断片化に悩まされている。
第一に、フィールドはビデオからの動作を理解しながら出力するテキストのみを出力する ` `perception'' モデルと、生の視覚入力から知覚できない ` `generation'' モデルに分けられる。
第二に、生成MLLMは、高密度でパラメトリックなSMPLモデルを使用して、時間的な動きを処理できない、単一のフレーム、静的なポーズに制限されることが多い。
第三に、既存の動き語彙は骨格データだけで構築されており、視覚領域へのリンクを切断している。
これらの課題に対処するために,時間的骨格に基づくモーション生成と視覚知覚をブリッジする統合フレームワークであるSupermanを紹介した。
私たちの解決策は2倍です。
まず、モダリティの切り離しを克服するため、視覚誘導型モーショントケナイザを提案する。
3Dスケルトンと視覚データの間の自然な幾何学的アライメントを活用することで、このモジュールは両方のモダリティから堅牢な共同学習を開拓し、統一されたクロスモーダルな運動語彙を作り出す。
第2に、この動作言語に基づいて、単一の統一MLLMアーキテクチャが、すべてのタスクを処理するように訓練されている。
このモジュールは、多種多様な時間的入力を柔軟に処理し、ビデオ(知覚)からスケルトンベースの動き予測とin-betweening(世代)を推定する。
Human3.6Mを含む標準ベンチマークの大規模な実験は、我々の統一された手法がすべての動作タスクに対して最先端または競合的な性能を達成することを実証している。
これは骨格を用いた生成運動解析において、より効率的でスケーラブルな経路を示す。
関連論文リスト
- UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。
豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。
本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文 参考訳(メタデータ) (2025-03-05T06:32:49Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。