論文の概要: DeepMoCap: Deep Optical Motion Capture Using Multiple Depth Sensors and
Retro-Reflectors
- arxiv url: http://arxiv.org/abs/2110.07283v1
- Date: Thu, 14 Oct 2021 11:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 22:52:53.970290
- Title: DeepMoCap: Deep Optical Motion Capture Using Multiple Depth Sensors and
Retro-Reflectors
- Title(参考訳): DeepMoCap:複数深度センサとRetro-Reflectorを用いた深部光学モーションキャプチャ
- Authors: Anargyros Chatzitofis, Dimitrios Zarpalas, Stefanos Kollias, Petros
Daras
- Abstract要約: DeepMoCapは、深度画像を自動的にローカライズしてラベル付けし、3D空間にアライメントすることで、モーションキャプチャーを探索する。
抽出された反射体2D位置を空間的に3次元空間にマッピングし、ロバストな3次元光学データ抽出を行う。
FCモデルは、DMC2.5Dデータセット上で2D Percentage of Correct Keypoints (PCK)メトリックを使用して競合より優れている。
- 参考スコア(独自算出の注目度): 20.83210667683783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, a marker-based, single-person optical motion capture method
(DeepMoCap) is proposed using multiple spatio-temporally aligned infrared-depth
sensors and retro-reflective straps and patches (reflectors). DeepMoCap
explores motion capture by automatically localizing and labeling reflectors on
depth images and, subsequently, on 3D space. Introducing a non-parametric
representation to encode the temporal correlation among pairs of colorized
depthmaps and 3D optical flow frames, a multi-stage Fully Convolutional Network
(FCN) architecture is proposed to jointly learn reflector locations and their
temporal dependency among sequential frames. The extracted reflector 2D
locations are spatially mapped in 3D space, resulting in robust 3D optical data
extraction. The subject's motion is efficiently captured by applying a
template-based fitting technique on the extracted optical data. Two datasets
have been created and made publicly available for evaluation purposes; one
comprising multi-view depth and 3D optical flow annotated images (DMC2.5D), and
a second, consisting of spatio-temporally aligned multi-view depth images along
with skeleton, inertial and ground truth MoCap data (DMC3D). The FCN model
outperforms its competitors on the DMC2.5D dataset using 2D Percentage of
Correct Keypoints (PCK) metric, while the motion capture outcome is evaluated
against RGB-D and inertial data fusion approaches on DMC3D, outperforming the
next best method by 4.5% in total 3D PCK accuracy.
- Abstract(参考訳): 本稿では,複数の時空間的赤外深度センサとレトロ反射ストラップとパッチ(反射器)を用いて,マーカーを用いた1対1光モーションキャプチャ法(DeepMoCap)を提案する。
DeepMoCapは、深度画像にリフレクターを自動でローカライズし、3D空間にラベリングすることで、モーションキャプチャーを探索する。
色付き深度マップと3次元光フローフレーム間の時間的相関を符号化する非パラメトリック表現を導入し,多段フルリ畳み込みネットワーク(FCN)アーキテクチャを提案する。
抽出された反射板2d位置は3d空間に空間的にマッピングされ、ロバストな3d光学データ抽出となる。
抽出した光学データにテンプレートベースフィッティング技術を適用して、被写体の動きを効率よくキャプチャする。
2つのデータセットが作成され、評価目的で公開されている。1つは、マルチビュー深度と3d光フローアノテート画像(dmc2.5d)、もう1つは、スケルトン、慣性、地上真理のmocapデータ(dmc3d)と共に、時空間的にアライメントされたマルチビュー深度画像からなる。
FCNモデルは2D Percentage of Correct Keypoints (PCK) 測定値を用いてDMC2.5Dデータセット上での競合よりも優れており、モーションキャプチャの結果はDMC3D上のRGB-Dおよび慣性データ融合アプローチに対して評価され、合計3D PCK精度において次のベストメソッドよりも4.5%向上している。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - 3DRef: 3D Dataset and Benchmark for Reflection Detection in RGB and
Lidar Data [0.0]
本稿では,マルチリターンライダー,RGB画像,および2D/3Dセマンティックラベルの5万以上のサンプルを含む,最初の大規模3D反射検出データセットを提案する。
提案したデータセットは, 高精度なグローバルアライメント, マルチモーダルデータ, 多様な反射物体や材料を備えた総合的なテストベッドを提供することにより, 反射検出を推し進める。
論文 参考訳(メタデータ) (2024-03-11T09:29:44Z) - Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - IDMS: Instance Depth for Multi-scale Monocular 3D Object Detection [1.7710335706046505]
拡張畳み込みに基づくマルチスケール認識モジュールは、異なるスケールターゲットに対するモデルの処理能力を向上するために設計されている。
提案アルゴリズムをKITTIテストセットと評価セットで検証することにより,実験結果から,車種別AP40の5.27%の改善が得られた。
論文 参考訳(メタデータ) (2022-12-03T04:02:31Z) - HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model [3.5290359800552946]
HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。
360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-04-11T11:11:43Z) - Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。