論文の概要: FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric
Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2208.11960v1
- Date: Thu, 25 Aug 2022 09:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:30:55.139310
- Title: FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric
Human Pose Estimation
- Title(参考訳): fusepose: パラメトリックな人間のポーズ推定のための運動空間におけるイムビジョンセンサ融合
- Authors: Yiming Bao, Xu Zhao and Dahong Qian
- Abstract要約: パラメトリック・ヒューマン・キネマティック・モデルを用いてemphFusePoseというフレームワークを提案する。
IMUや視覚データの異なる情報を収集し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合手法を導入する。
3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。
- 参考スコア(独自算出の注目度): 12.821740951249552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There exist challenging problems in 3D human pose estimation mission, such as
poor performance caused by occlusion and self-occlusion. Recently, IMU-vision
sensor fusion is regarded as valuable for solving these problems. However,
previous researches on the fusion of IMU and vision data, which is
heterogeneous, fail to adequately utilize either IMU raw data or reliable
high-level vision features. To facilitate a more efficient sensor fusion, in
this work we propose a framework called \emph{FusePose} under a parametric
human kinematic model. Specifically, we aggregate different information of IMU
or vision data and introduce three distinctive sensor fusion approaches:
NaiveFuse, KineFuse and AdaDeepFuse. NaiveFuse servers as a basic approach that
only fuses simplified IMU data and estimated 3D pose in euclidean space. While
in kinematic space, KineFuse is able to integrate the calibrated and aligned
IMU raw data with converted 3D pose parameters. AdaDeepFuse further develops
this kinematical fusion process to an adaptive and end-to-end trainable manner.
Comprehensive experiments with ablation studies demonstrate the rationality and
superiority of the proposed framework. The performance of 3D human pose
estimation is improved compared to the baseline result. On Total Capture
dataset, KineFuse surpasses previous state-of-the-art which uses IMU only for
testing by 8.6\%. AdaDeepFuse surpasses state-of-the-art which uses IMU for
both training and testing by 8.5\%. Moreover, we validate the generalization
capability of our framework through experiments on Human3.6M dataset.
- Abstract(参考訳): 3次元ポーズ推定ミッションには、閉塞や自己閉塞によるパフォーマンスの低下など、困難な問題がある。
近年, imuビジョンセンサの融合は, この問題の解決に有用であると考えられている。
しかし、IMUとビジョンデータの融合に関する以前の研究は、異種であり、IMUの生データや信頼性の高い高レベルの視覚特徴を適切に利用できなかった。
本研究では,より効率的なセンサ融合を実現するために,パラメトリックな人体運動モデルに基づく「emph{FusePose}」というフレームワークを提案する。
具体的には、IMUまたは視覚データの異なる情報を集約し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合アプローチを導入する。
NaiveFuseサーバは、単純化されたIMUデータと推定された3Dポーズをユークリッド空間で融合する基本的なアプローチである。
キネマティック空間では、KineFuseはキャリブレーションとアライメントされたIMUの生データを変換された3Dポーズパラメータと統合することができる。
AdaDeepFuseは、このキネマティック融合プロセスを適応的およびエンドツーエンドのトレーニング可能な方法でさらに発展させる。
アブレーション研究による総合的な実験は、提案フレームワークの合理性と優越性を実証している。
3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。
トータルキャプチャデータセットでは、KineFuseはテストのみにIMUを使用する従来の最先端技術を8.6\%上回る。
AdaDeepFuseは、トレーニングとテストの両方にIMUを使用している最先端を8.5\%上回る。
さらに、Human3.6Mデータセットの実験を通して、フレームワークの一般化能力を検証する。
関連論文リスト
- CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。
情報ソースを補完するために慣性センサが導入された。
物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文 参考訳(メタデータ) (2024-04-27T09:02:42Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。