論文の概要: SOMA: Solving Optical Marker-Based MoCap Automatically
- arxiv url: http://arxiv.org/abs/2110.04431v1
- Date: Sat, 9 Oct 2021 02:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:18:58.338883
- Title: SOMA: Solving Optical Marker-Based MoCap Automatically
- Title(参考訳): SOMA: 光マーカーベースのMoCapを自動で解決
- Authors: Nima Ghorbani and Michael J. Black
- Abstract要約: 我々はSOMAと呼ばれる新しいニューラルネットワークを訓練し、モカプポイントの雲をさまざまな数のポイントで取り、それらを大規模にラベル付けする。
Somaは、3Dボディの空間構造を学ぶために、自己注意要素を積み重ねたアーキテクチャを利用する。
4つのデータセットにまたがる8時間以上のアーカイブモキャップデータを自動的にラベル付けします。
- 参考スコア(独自算出の注目度): 56.59083192247637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Marker-based optical motion capture (mocap) is the "gold standard" method for
acquiring accurate 3D human motion in computer vision, medicine, and graphics.
The raw output of these systems are noisy and incomplete 3D points or short
tracklets of points. To be useful, one must associate these points with
corresponding markers on the captured subject; i.e. "labelling". Given these
labels, one can then "solve" for the 3D skeleton or body surface mesh.
Commercial auto-labeling tools require a specific calibration procedure at
capture time, which is not possible for archival data. Here we train a novel
neural network called SOMA, which takes raw mocap point clouds with varying
numbers of points, labels them at scale without any calibration data,
independent of the capture technology, and requiring only minimal human
intervention. Our key insight is that, while labeling point clouds is highly
ambiguous, the 3D body provides strong constraints on the solution that can be
exploited by a learning-based method. To enable learning, we generate massive
training sets of simulated noisy and ground truth mocap markers animated by 3D
bodies from AMASS. SOMA exploits an architecture with stacked self-attention
elements to learn the spatial structure of the 3D body and an optimal transport
layer to constrain the assignment (labeling) problem while rejecting outliers.
We extensively evaluate SOMA both quantitatively and qualitatively. SOMA is
more accurate and robust than existing state of the art research methods and
can be applied where commercial systems cannot. We automatically label over 8
hours of archival mocap data across 4 different datasets captured using various
technologies and output SMPL-X body models. The model and data is released for
research purposes at https://soma.is.tue.mpg.de/.
- Abstract(参考訳): マーカーベースの光学モーションキャプチャ(mocap)は、コンピュータビジョン、医学、グラフィックスにおいて正確な3D人間の動きを取得するための「金の標準」手法である。
これらのシステムの生出力はノイズが多く、不完全な3Dポイントまたは短いトラックレットである。
有用にするためには、これらの点をキャプチャー対象の対応するマーカー、すなわち"labelling"を関連付ける必要がある。
これらのラベルが与えられると、3dスケルトンやボディサーフェスメッシュの「解く」ことができる。
商用自動ラベルツールは、キャプチャ時に特定のキャリブレーション手順を必要とするが、アーカイブデータでは不可能である。
ここでは,新しいニューラルネットワークであるsomaを訓練し,様々な点数を持つ生のモカプポイント雲を取り,キャリブレーションデータなしで大規模にラベル付けし,キャプチャ技術に依存せず,最小限の介入しか必要としない。
私たちの重要な洞察は、点雲のラベル付けは非常に曖昧であるが、3Dボディは学習ベースの手法で活用できるソリューションに強い制約を与えているということです。
学習を可能にするために,amassから3dボディでアニメーションされたノイズ・グランド・トゥルート・モキャップ・マーカーの膨大なトレーニングセットを生成する。
SOMAは、3Dボディの空間構造を学習するために自己注意要素を積み重ねたアーキテクチャと、アウトリーチを拒絶しながら割り当て(ラベル付け)問題を制約する最適な輸送層を利用する。
SOMAを定量的,定性的に評価した。
SOMAは既存の技術研究手法よりも正確で堅牢であり、商用システムでは適用できない。
さまざまな技術を用いて収集した4つのデータセットにまたがって8時間以上のアーカイブモキャップデータを自動的にラベル付けし、SMPL-Xボディモデルを出力します。
モデルとデータは研究目的でhttps://soma.is.tue.mpg.de/でリリースされる。
関連論文リスト
- Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model [52.27297680947337]
マルチモーダル言語モデル(MLLM)は、現実の環境でますます実装されている。
その可能性にもかかわらず、現在のコミュニティ内のトップモデルは、空間的次元と時間的次元を十分に理解できないままです。
本稿では,3次元・時間的理解を喚起するための訓練不要,効果的,汎用的な視覚刺激法である粗対応について紹介する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection [59.33188668341604]
3次元物体検出は、自律運転知覚の基本的なタスクとして機能する。
ポイントクラウドデータのための高品質なアノテーションを得るためには、コストがかかる。
本稿では,適応型合成シーンを生成するために,ハードネス対応シーン合成(HASS)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:23Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - 3D Human Mesh Estimation from Virtual Markers [34.703241940871635]
体表面上の64個のランドマークキーポイントを学習する仮想マーカーを中間表現として提示する。
提案手法は3つのデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-21T10:30:43Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Semi-supervised 3D Object Detection via Adaptive Pseudo-Labeling [18.209409027211404]
3次元物体検出はコンピュータビジョンにおいて重要な課題である。
既存のほとんどのメソッドでは、多くの高品質な3Dアノテーションが必要です。
本研究では,屋外3次元物体検出タスクのための擬似ラベルに基づく新しい半教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T02:58:43Z) - labelCloud: A Lightweight Domain-Independent Labeling Tool for 3D Object
Detection in Point Clouds [0.0]
既存のツールの欠点に対処するために,点群内の3次元物体検出のための新しいツールを提案する。
このツールは、MLモデルが後で自動的に識別すべきターゲットオブジェクトの周りに3Dバウンディングボックスをラベル付けするために使用できることを示しています。
論文 参考訳(メタデータ) (2021-03-05T09:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。