Fugu-MT 論文翻訳(概要): FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric Human Pose Estimation

論文の概要: FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric Human Pose Estimation

arxiv url: http://arxiv.org/abs/2208.11960v1
Date: Thu, 25 Aug 2022 09:35:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-26 13:30:55.139310
Title: FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric Human Pose Estimation
Title（参考訳）: fusepose: パラメトリックな人間のポーズ推定のための運動空間におけるイムビジョンセンサ融合
Authors: Yiming Bao, Xu Zhao and Dahong Qian
Abstract要約: パラメトリック・ヒューマン・キネマティック・モデルを用いてemphFusePoseというフレームワークを提案する。 IMUや視覚データの異なる情報を収集し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合手法を導入する。 3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。
参考スコア（独自算出の注目度）: 12.821740951249552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There exist challenging problems in 3D human pose estimation mission, such as poor performance caused by occlusion and self-occlusion. Recently, IMU-vision sensor fusion is regarded as valuable for solving these problems. However, previous researches on the fusion of IMU and vision data, which is heterogeneous, fail to adequately utilize either IMU raw data or reliable high-level vision features. To facilitate a more efficient sensor fusion, in this work we propose a framework called \emph{FusePose} under a parametric human kinematic model. Specifically, we aggregate different information of IMU or vision data and introduce three distinctive sensor fusion approaches: NaiveFuse, KineFuse and AdaDeepFuse. NaiveFuse servers as a basic approach that only fuses simplified IMU data and estimated 3D pose in euclidean space. While in kinematic space, KineFuse is able to integrate the calibrated and aligned IMU raw data with converted 3D pose parameters. AdaDeepFuse further develops this kinematical fusion process to an adaptive and end-to-end trainable manner. Comprehensive experiments with ablation studies demonstrate the rationality and superiority of the proposed framework. The performance of 3D human pose estimation is improved compared to the baseline result. On Total Capture dataset, KineFuse surpasses previous state-of-the-art which uses IMU only for testing by 8.6\%. AdaDeepFuse surpasses state-of-the-art which uses IMU for both training and testing by 8.5\%. Moreover, we validate the generalization capability of our framework through experiments on Human3.6M dataset.
Abstract（参考訳）: 3次元ポーズ推定ミッションには、閉塞や自己閉塞によるパフォーマンスの低下など、困難な問題がある。近年, imuビジョンセンサの融合は, この問題の解決に有用であると考えられている。しかし、IMUとビジョンデータの融合に関する以前の研究は、異種であり、IMUの生データや信頼性の高い高レベルの視覚特徴を適切に利用できなかった。本研究では,より効率的なセンサ融合を実現するために,パラメトリックな人体運動モデルに基づく「emph{FusePose}」というフレームワークを提案する。具体的には、IMUまたは視覚データの異なる情報を集約し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合アプローチを導入する。 NaiveFuseサーバは、単純化されたIMUデータと推定された3Dポーズをユークリッド空間で融合する基本的なアプローチである。キネマティック空間では、KineFuseはキャリブレーションとアライメントされたIMUの生データを変換された3Dポーズパラメータと統合することができる。 AdaDeepFuseは、このキネマティック融合プロセスを適応的およびエンドツーエンドのトレーニング可能な方法でさらに発展させる。アブレーション研究による総合的な実験は、提案フレームワークの合理性と優越性を実証している。 3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。トータルキャプチャデータセットでは、KineFuseはテストのみにIMUを使用する従来の最先端技術を8.6\%上回る。 AdaDeepFuseは、トレーニングとテストの両方にIMUを使用している最先端を8.5\%上回る。さらに、Human3.6Mデータセットの実験を通して、フレームワークの一般化能力を検証する。

関連論文リスト

DeProPose: Deficiency-Proof 3D Human Pose Estimation via Adaptive Multi-View Fusion [57.83515140886807]
欠陥認識型3Dポーズ推定の課題について紹介する。 DeProPoseは、トレーニングの複雑さを減らすために、ネットワークアーキテクチャをシンプルにするためのフレキシブルなメソッドである。我々は,新しい3次元ポーズ推定データセットを開発した。
論文参考訳（メタデータ） (2025-02-23T03:22:54Z)
Pre-training a Density-Aware Pose Transformer for Robust LiDAR-based 3D Human Pose Estimation [27.25933965875881]
LiDARベースの3Dヒューマンポース推定が研究の焦点となっている。既存の手法のほとんどは、時間情報、マルチモーダル融合、あるいはSMPL最適化を使ってバイアスのある結果を修正する。本稿では,ポイントクラウドのモデリングと拡張に関する洞察を提供する,シンプルながら強力な手法を提案する。
論文参考訳（メタデータ） (2024-12-18T02:54:30Z)
CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。 pGTの精度を向上させる2つの貢献をしている。
論文参考訳（メタデータ） (2024-11-12T19:12:12Z)
PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文参考訳（メタデータ） (2024-10-29T15:28:15Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文参考訳（メタデータ） (2024-10-06T18:15:27Z)
Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。情報ソースを補完するために慣性センサが導入された。物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文参考訳（メタデータ） (2024-04-27T09:02:42Z)
GOOD: General Optimization-based Fusion for 3D Object Detection via LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。 Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。 nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文参考訳（メタデータ） (2023-03-17T07:05:04Z)
Towards Multimodal Multitask Scene Understanding Models for Indoor Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。 MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。 MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。 MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文参考訳（メタデータ） (2022-09-27T04:49:19Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)
AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文参考訳（メタデータ） (2020-10-26T03:19:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。