論文の概要: Stereo-Inertial Poser: Towards Metric-Accurate Shape-Aware Motion Capture Using Sparse IMUs and a Single Stereo Camera
- arxiv url: http://arxiv.org/abs/2603.02130v1
- Date: Mon, 02 Mar 2026 17:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.014312
- Title: Stereo-Inertial Poser: Towards Metric-Accurate Shape-Aware Motion Capture Using Sparse IMUs and a Single Stereo Camera
- Title(参考訳): ステレオ慣性電位:スパースIMUと1台のステレオカメラを用いたメートル精度形状認識モーションキャプチャーを目指して
- Authors: Tutian Tang, Xingyu Ji, Yutong Li, MingHao Liu, Wenqiang Xu, Cewu Lu,
- Abstract要約: 本稿では,距離精度と形状を考慮した3次元動作を推定するリアルタイムモーションキャプチャシステムであるStereo-Inertial Poserを提案する。
モノクラーRGBをステレオビジョンに置き換え、直接3次元キーポイント抽出と形状パラメータ推定を可能にした。
ドリフトフリーなグローバル翻訳を長い記録時間で生成し,フットスケート効果を低減させる。
- 参考スコア(独自算出の注目度): 54.967647497048205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in visual-inertial motion capture systems have demonstrated the potential of combining monocular cameras with sparse inertial measurement units (IMUs) as cost-effective solutions, which effectively mitigate occlusion and drift issues inherent in single-modality systems. However, they are still limited by metric inaccuracies in global translations stemming from monocular depth ambiguity, and shape-agnostic local motion estimations that ignore anthropometric variations. We present Stereo-Inertial Poser, a real-time motion capture system that leverages a single stereo camera and six IMUs to estimate metric-accurate and shape-aware 3D human motion. By replacing the monocular RGB with stereo vision, our system resolves depth ambiguity through calibrated baseline geometry, enabling direct 3D keypoint extraction and body shape parameter estimation. IMU data and visual cues are fused for predicting drift-compensated joint positions and root movements, while a novel shape-aware fusion module dynamically harmonizes anthropometry variations with global translations. Our end-to-end pipeline achieves over 200 FPS without optimization-based post-processing, enabling real-time deployment. Quantitative evaluations across various datasets demonstrate state-of-the-art performance. Qualitative results show our method produces drift-free global translation under a long recording time and reduces foot-skating effects.
- Abstract(参考訳): 近年の視覚・慣性モーションキャプチャシステムの進歩は、単眼カメラとスパルス慣性測定ユニット(IMU)をコスト効率のよいソリューションとして組み合わせることの可能性を実証している。
しかし、これは単分子深度曖昧性に起因する大域的な翻訳における計量的不正確さと、人文的変動を無視する形状に依存しない局所的な運動推定によって制限されている。
本稿では,1台のステレオカメラと6台のIMUを用いたリアルタイムモーションキャプチャシステムであるStereo-Inertial Poserについて述べる。
単眼のRGBを立体視に置き換えることで,3次元キーポイントの直接抽出と形状パラメータ推定が可能となる。
IMUデータと視覚的手がかりは、ドリフト補償された関節の位置と根の動きを予測するために融合され、新しい形状認識融合モジュールは、グローバル翻訳と人文移動を動的に調和させる。
エンドツーエンドパイプラインは、最適化ベースの後処理なしで200以上のFPSを実現し、リアルタイムデプロイメントを可能にします。
さまざまなデータセットにわたる定量的評価は、最先端のパフォーマンスを示している。
定性的な結果から,ドリフトフリーなグローバル翻訳を長時間で生成し,フットスケート効果を低減した。
関連論文リスト
- Mocap Anywhere: Towards Pairwise-Distance based Motion Capture in the Wild (for the Wild) [17.794355768651698]
Wild-Poser (WiP)は、ノイズや劣化したPWD測定から3次元関節位置を予測する、コンパクトでリアルタイムなTransformerベースのアーキテクチャである。
WiPは、身体の測定や形状の調整を必要とせずに、非ヒト種を含む様々な形態の被験者を一般化する。
リアルタイムで動作させることで、WiPは低い関節位置誤差を達成し、人および動物の両方の被写体に対して正確な3次元運動再構成を示す。
論文 参考訳(メタデータ) (2026-01-27T11:58:34Z) - Visual Odometry with Transformers [68.453547770334]
特徴抽出により単眼フレームのシーケンスを処理するビジュアル・オドメトリ・トランスフォーマ(VoT)を導入する。
従来の方法とは異なり、VoTは密度の高い幾何学を推定することなくカメラの動きを直接予測し、監視のためにカメラのポーズのみに依存する。
VoTは、より大きなデータセットで効果的にスケールし、より強力なトレーニング済みバックボーンの恩恵を受け、多様なカメラモーションとキャリブレーション設定を一般化し、従来のメソッドよりも3倍以上高速に動作しながらパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-10-02T17:00:14Z) - Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler [62.06785782635153]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthV2を提案する。
UniDepthV2は、追加情報なしで、入力画像から推論時にメートル法3Dポイントを直接予測する。
我々のモデルは擬似球面出力表現を利用し、カメラと深度表現をアンタングル化する。
論文 参考訳(メタデータ) (2025-02-27T14:03:15Z) - ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [41.992980062962495]
イベントベースビジュアル・オドメトリーは、追跡とサブプロブレムのマッピング(典型的には並列)を解決することを目的としている
直接パイプライン上に,イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
結果として得られるシステムは、現代の高解像度のイベントカメラでうまくスケールする。
論文 参考訳(メタデータ) (2024-10-12T05:35:27Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - TransPose: Real-time 3D Human Translation and Pose Estimation with Six
Inertial Sensors [7.565581566766422]
今回紹介するTransPoseは、わずか6つの慣性測定ユニット(IMU)から90fps以上でフルモーションキャプチャを実行するDNNベースのアプローチです。
身体のポーズ推定には, 葉間関節位置を中間結果として推定する多段階ネットワークを提案する。
グローバル翻訳推定のために,グローバル翻訳を頑健に解くためのサポートフット法とRNN法を提案する。
論文 参考訳(メタデータ) (2021-05-10T18:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。