論文の概要: MAMMA: Markerless & Automatic Multi-Person Motion Action Capture
- arxiv url: http://arxiv.org/abs/2506.13040v1
- Date: Mon, 16 Jun 2025 02:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.313734
- Title: MAMMA: Markerless & Automatic Multi-Person Motion Action Capture
- Title(参考訳): MAMMA:マーカレスと自動マルチパーソンモーションアクションキャプチャ
- Authors: Hanz Cuevas-Velasquez, Anastasios Yiannakidis, Soyong Shin, Giorgio Becherini, Markus Höschle, Joachim Tesch, Taylor Obersat, Tsvetelina Alexiadis, Michael Black,
- Abstract要約: MAMMAはマーカーレスモーションキャプチャパイプラインで、2人のインタラクションシーケンスのマルチビュービデオからSMPL-Xパラメータを復元する。
セグメンテーションマスクに条件付された高密度2次元表面のランドマークを予測する手法を提案する。
提案手法は複雑な対人インタラクションを処理でき,既存の手法よりも精度が高いことを示す。
- 参考スコア(独自算出の注目度): 4.030663443921344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MAMMA, a markerless motion-capture pipeline that accurately recovers SMPL-X parameters from multi-view video of two-person interaction sequences. Traditional motion-capture systems rely on physical markers. Although they offer high accuracy, their requirements of specialized hardware, manual marker placement, and extensive post-processing make them costly and time-consuming. Recent learning-based methods attempt to overcome these limitations, but most are designed for single-person capture, rely on sparse keypoints, or struggle with occlusions and physical interactions. In this work, we introduce a method that predicts dense 2D surface landmarks conditioned on segmentation masks, enabling person-specific correspondence estimation even under heavy occlusion. We employ a novel architecture that exploits learnable queries for each landmark. We demonstrate that our approach can handle complex person--person interaction and offers greater accuracy than existing methods. To train our network, we construct a large, synthetic multi-view dataset combining human motions from diverse sources, including extreme poses, hand motions, and close interactions. Our dataset yields high-variability synthetic sequences with rich body contact and occlusion, and includes SMPL-X ground-truth annotations with dense 2D landmarks. The result is a system capable of capturing human motion without the need for markers. Our approach offers competitive reconstruction quality compared to commercial marker-based motion-capture solutions, without the extensive manual cleanup. Finally, we address the absence of common benchmarks for dense-landmark prediction and markerless motion capture by introducing two evaluation settings built from real multi-view sequences. We will release our dataset, benchmark, method, training code, and pre-trained model weights for research purposes.
- Abstract(参考訳): MAMMAは2人インタラクションシーケンスの多視点ビデオからSMPL-Xパラメータを正確に復元するマーカーレスモーションキャプチャパイプラインである。
伝統的なモーションキャプチャシステムは物理的なマーカーに依存している。
精度は高いが、特別なハードウェア、手動のマーカー配置、広範な後処理の要求により、コストと時間を要する。
近年の学習ベースの手法はこれらの制限を克服しようと試みているが、そのほとんどは単独のキャプチャーのために設計されており、疎いキーポイントに依存したり、オクルージョンや物理的相互作用に苦しんだりしている。
本研究では,密集した2次元表面のランドマークをセグメンテーションマスク上で予測し,重閉塞下でも個人固有の対応推定を可能にする手法を提案する。
ランドマークごとに学習可能なクエリを活用する新しいアーキテクチャを採用しています。
提案手法は複雑な対人インタラクションを処理でき,既存の手法よりも精度が高いことを示す。
ネットワークをトレーニングするために、極端なポーズ、手の動き、密接な相互作用を含む多様なソースからの人間の動きを組み合わせた、大規模で総合的なマルチビューデータセットを構築した。
本データセットは,高密度な2次元ランドマークを持つSMPL-X地中真実アノテーションを含む,リッチボディコンタクトと閉塞を有する高可変合成配列を生成する。
その結果、マーカーを必要とせずに人間の動きを捉えることができるシステムになった。
提案手法は,手作業による手作業のクリーンアップを伴わずに,市販のマーカーベースのモーションキャプチャソリューションと比較して,競争力のある再現性を提供する。
最後に、実際のマルチビューシーケンスから構築した2つの評価設定を導入することで、高密度ランドマーク予測とマーカーレスモーションキャプチャーのための共通ベンチマークが存在しないことに対処する。
研究目的のために、データセット、ベンチマーク、メソッド、トレーニングコード、トレーニング済みモデルウェイトをリリースします。
関連論文リスト
- SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - One-shot Human Motion Transfer via Occlusion-Robust Flow Prediction and Neural Texturing [21.613055849276385]
マルチスケールな特徴ワーピングとニューラルテクスチャマッピングを組み合わせて、2Dの外観と2.5D形状を復元する統合フレームワークを提案する。
このモデルでは,複数モーダルを共同でトレーニングし,融合させることで,幾何的誤差に対処する頑健な神経テクスチャ特性を実現する。
論文 参考訳(メタデータ) (2024-12-09T03:14:40Z) - Reconstructing Close Human Interactions from Multiple Views [38.924950289788804]
本稿では,複数のキャリブレーションカメラで捉えた密接なインタラクションを行う複数の個人のポーズを再構築する上での課題について述べる。
これらの課題に対処する新しいシステムを導入する。
本システムは,学習に基づくポーズ推定コンポーネントと,それに対応するトレーニングと推論戦略を統合する。
論文 参考訳(メタデータ) (2024-01-29T14:08:02Z) - 3D Human Mesh Estimation from Virtual Markers [34.703241940871635]
体表面上の64個のランドマークキーポイントを学習する仮想マーカーを中間表現として提示する。
提案手法は3つのデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-21T10:30:43Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - SOMA: Solving Optical Marker-Based MoCap Automatically [56.59083192247637]
我々はSOMAと呼ばれる新しいニューラルネットワークを訓練し、モカプポイントの雲をさまざまな数のポイントで取り、それらを大規模にラベル付けする。
Somaは、3Dボディの空間構造を学ぶために、自己注意要素を積み重ねたアーキテクチャを利用する。
4つのデータセットにまたがる8時間以上のアーカイブモキャップデータを自動的にラベル付けします。
論文 参考訳(メタデータ) (2021-10-09T02:27:27Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Recovering Trajectories of Unmarked Joints in 3D Human Actions Using
Latent Space Optimization [16.914342116747825]
モーションキャプチャ(モキャップ)と飛行時間に基づく人間の行動の検知は、ロバストな活動分析を行うために、ますます人気が高まっている。
しかし、可視性、エラーの追跡、マーカーの設定を便利に保つ必要性など、両方のモダリティにはいくつかの実践的な課題がある。
本稿では,非マーク付き関節データの再構成を不備な線形逆問題として扱う。
モカプデータセットとKinectデータセットの両方の実験により、提案手法が行方不明な関節の動作や運動のセマンティクスを回復するのに非常に有効であることを明らかにした。
論文 参考訳(メタデータ) (2020-12-03T16:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。