論文の概要: MMVP: A Multimodal MoCap Dataset with Vision and Pressure Sensors
- arxiv url: http://arxiv.org/abs/2403.17610v1
- Date: Tue, 26 Mar 2024 11:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:37:32.179468
- Title: MMVP: A Multimodal MoCap Dataset with Vision and Pressure Sensors
- Title(参考訳): MMVP:ビジョンと圧力センサーを備えたマルチモーダルMOCapデータセット
- Authors: He Zhang, Shenghao Ren, Haolei Yuan, Jianhui Zhao, Fan Li, Shuangpeng Sun, Zhenghao Liang, Tao Yu, Qiu Shen, Xun Cao,
- Abstract要約: MMVPは、RGBD観測と同期した正確で高密度なプランター圧力信号を提供する。
人間のモーションキャプチャのためのRGBD-P SMPLフィッティング法とモノクロビデオベースのベースラインフレームワークVP-MoCapを提案する。
- 参考スコア(独自算出の注目度): 25.353287932867403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foot contact is an important cue not only for human motion capture but also for motion understanding and physically plausible motion generation. However, most of the foot-contact annotations in existing datasets are estimated by purely visual matching and distance thresholding, which results in low accuracy and coarse granularity. Even though existing multimodal datasets synergistically capture plantar pressure (foot contact) and visual signals, they are specifically designed for small-range and slow motion such as Taiji Quan and Yoga. Therefore, there is still a lack of a vision-pressure multimodal dataset with large-range and fast human motion, as well as accurate and dense foot-contact annotation. To fill this gap, we propose a Multimodal MoCap Dataset with Vision and Pressure sensors, named MMVP. MMVP provides accurate and dense plantar pressure signals synchronized with RGBD observations, which is especially useful for both plausible shape estimation, robust pose fitting without foot drifting, and accurate global translation tracking. To validate the dataset, we propose an RGBD-P SMPL fitting method and also a monocular-video-based baseline framework, VP-MoCap, for human motion capture. Experiments demonstrate that our RGBD-P SMPL Fitting results significantly outperform pure visual motion capture. Moreover, VP-MoCap outperforms SOTA methods in foot-contact and global translation estimation accuracy. We believe the configuration of the dataset and the baseline frameworks will stimulate the research in this direction and also provide a good reference for MoCap applications in various domains. Project page: https://haolyuan.github.io/MMVP-Dataset/.
- Abstract(参考訳): 足の接触は、人間のモーションキャプチャーだけでなく、運動理解や身体的にもっともらしいモーション生成にも重要な手がかりである。
しかし、既存のデータセットにおける足の接触アノテーションのほとんどは、純粋に視覚的マッチングと距離閾値によって推定されるため、精度は低く、粒度は粗い。
既存のマルチモーダルデータセットは、足圧(足の接触)と視覚信号を相乗的にキャプチャするが、特にタイジクァンやヨガのような小さな範囲のスローモーションのために設計されている。
したがって、広角かつ高速な人間の動きと、正確で密度の高い足の接触アノテーションを備えた視覚圧マルチモーダルデータセットがまだ存在しない。
このギャップを埋めるために、MMVPと呼ばれるビジョンと圧力センサーを備えたMultimodal MoCapデータセットを提案する。
MMVPは、RGBD観測と同期した正確で高密度な足底圧力信号を提供し、特に可塑性形状の推定、足のドリフトのない堅牢なポーズフィッティング、そして正確な大域的翻訳追跡に有用である。
このデータセットを検証するために、RGBD-P SMPLフィッティング法と、人間のモーションキャプチャのためのモノクロビデオベースラインフレームワークVP-MoCapを提案する。
実験により、RGBD-P SMPLフィッティングは、純粋な視覚的モーションキャプチャーを著しく上回ることがわかった。
さらに、VP-MoCapは、足の接触や大域的な翻訳推定精度でSOTA法より優れている。
データセットとベースラインフレームワークの設定は、この方向の研究を刺激し、さまざまなドメインにおけるMoCapアプリケーションに良いリファレンスを提供すると信じています。
プロジェクトページ: https://haolyuan.github.io/MMVP-Dataset/。
関連論文リスト
- When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset [40.24765100535353]
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-14T09:16:49Z) - Plain-Det: A Plain Multi-Dataset Object Detector [22.848784430833835]
Plain-Detは、新しいデータセットに対応する柔軟性、さまざまなデータセットのパフォーマンス、トレーニング効率を提供する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-14T05:18:06Z) - RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks [11.681342476516267]
汎用情報マッピングとインタラクションに基づく分散センシング基礎モデル(RS-DFM)を提案する。
このモデルは、複数のプラットフォームにわたるオンライン協調認識と、さまざまな下流タスクを実現することができる。
本稿では、高周波・低周波特徴情報を分離するデュアルブランチ情報圧縮モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-11T07:46:47Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - MMPD: Multi-Domain Mobile Video Physiology Dataset [23.810333638829302]
データセットは、肌のトーン、体の動き、照明条件など、より広い表現でビデオをキャプチャするように設計されている。
データセットの信頼性は、主流の教師なしの方法とニューラルネットワークによって検証される。
論文 参考訳(メタデータ) (2023-02-08T02:20:01Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z) - Gaze-Sensing LEDs for Head Mounted Displays [73.88424800314634]
仮想現実(VR)アプリケーションのための低消費電力の視線トラッカーを作成するために,LEDのセンサ機能を利用する。
我々は,視線推定法が複雑な次元削減技術を必要としないことを示した。
論文 参考訳(メタデータ) (2020-03-18T23:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。