論文の概要: Fusing Monocular Images and Sparse IMU Signals for Real-time Human
Motion Capture
- arxiv url: http://arxiv.org/abs/2309.00310v1
- Date: Fri, 1 Sep 2023 07:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:10:57.244374
- Title: Fusing Monocular Images and Sparse IMU Signals for Real-time Human
Motion Capture
- Title(参考訳): リアルタイムモーションキャプチャのための単眼画像とスパースIMU信号の融合
- Authors: Shaohua Pan, Qi Ma, Xinyu Yi, Weifeng Hu, Xiong Wang, Xingkang Zhou,
Jijunnan Li, and Feng Xu
- Abstract要約: 本研究では,モノクロ画像とスパースIMUを融合してリアルタイムな人体モーションキャプチャを実現する手法を提案する。
本手法は, モーションキャプチャにおいて, 目標の異なるIMU信号を完全に探索する2つの座標戦略を含む。
我々の手法は最先端のビジョン, IMU, およびグローバルな向きと局所的なポーズ推定の併用方法よりも優れていた。
- 参考スコア(独自算出の注目度): 8.125716139367142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Either RGB images or inertial signals have been used for the task of motion
capture (mocap), but combining them together is a new and interesting topic. We
believe that the combination is complementary and able to solve the inherent
difficulties of using one modality input, including occlusions, extreme
lighting/texture, and out-of-view for visual mocap and global drifts for
inertial mocap. To this end, we propose a method that fuses monocular images
and sparse IMUs for real-time human motion capture. Our method contains a dual
coordinate strategy to fully explore the IMU signals with different goals in
motion capture. To be specific, besides one branch transforming the IMU signals
to the camera coordinate system to combine with the image information, there is
another branch to learn from the IMU signals in the body root coordinate system
to better estimate body poses. Furthermore, a hidden state feedback mechanism
is proposed for both two branches to compensate for their own drawbacks in
extreme input cases. Thus our method can easily switch between the two kinds of
signals or combine them in different cases to achieve a robust mocap. %The two
divided parts can help each other for better mocap results under different
conditions. Quantitative and qualitative results demonstrate that by delicately
designing the fusion method, our technique significantly outperforms the
state-of-the-art vision, IMU, and combined methods on both global orientation
and local pose estimation. Our codes are available for research at
https://shaohua-pan.github.io/robustcap-page/.
- Abstract(参考訳): RGB画像や慣性信号がモーションキャプチャー(mocap)のタスクに使われてきたが、それらを組み合わせることは新しくて興味深いトピックである。
この組み合わせは相補的であり、オクルージョン、極端な照明/テクスチャ、視覚モキャップのアウト・オブ・ビュー、慣性モキャップのグローバルドリフトなど、一つのモード入力を使用するという固有の困難を解消できると考えている。
そこで本研究では,モノクロ画像とスパースIMUを融合してリアルタイムな人体モーションキャプチャを実現する手法を提案する。
本手法は,動作キャプチャにおける目標が異なるIMU信号を完全に探索する2つの座標戦略を含む。
具体的には、IMU信号をカメラ座標系に変換して画像情報と組み合わせるブランチに加えて、ボディルート座標系内のIMU信号から学習してボディポーズをよりよく推定するブランチもある。
さらに, 極端に入力された場合において, それぞれの欠点を補うための隠れ状態フィードバック機構が提案されている。
これにより,2種類の信号間を切り替えたり,異なるケースで組み合わせてロバストなモカプを実現することができる。
%) で, 異なる条件下でのモカプ結果の改善に役立てることができた。
定量的および定性的な結果から, 融合法を微妙に設計することにより, 最先端のビジョン, IMU, および大域的方向推定と局所的ポーズ推定の両方において, 組み合わせた手法よりも優れた性能を示すことが示された。
私たちのコードはhttps://shaohua-pan.github.io/robustcap-page/で調査できます。
関連論文リスト
- Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - Fusion Transformer with Object Mask Guidance for Image Forgery Analysis [9.468075384561947]
OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。
本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。
我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
論文 参考訳(メタデータ) (2024-03-18T20:20:13Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - EgoLocate: Real-time Motion Capture, Localization, and Mapping with
Sparse Body-mounted Sensors [74.1275051763006]
本研究では,人間のモーションキャプチャ(モキャップ),ローカライゼーション,マッピングを,スパースボディ搭載センサからリアルタイムに行うシステムを開発した。
我々の技術は2つの分野の最先端技術と比較して,我々の技術によって大きく改善されている。
論文 参考訳(メタデータ) (2023-05-02T16:56:53Z) - DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion [9.294501649791016]
動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。
提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
論文 参考訳(メタデータ) (2022-10-11T15:07:25Z) - Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。
既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。
本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文 参考訳(メタデータ) (2022-07-20T18:05:53Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。