論文の概要: EgoEMG: A Multimodal Egocentric Dataset with Bilateral EMG and Vision for Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2605.05712v1
- Date: Thu, 07 May 2026 05:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.548035
- Title: EgoEMG: A Multimodal Egocentric Dataset with Bilateral EMG and Vision for Hand Pose Estimation
- Title(参考訳): EgoEMG : バイラテラルEMGとビジョンを用いたマルチモーダル・エゴセントリック・データセット
- Authors: Ziheng Xi, Jiayi Yu, Yitao Wang, Yanbo Duan, Jianjiang Feng, Jie Zhou,
- Abstract要約: EgoEMGは、両手ポーズ推定のためのマルチモーダルなエゴセントリックデータセットである。
データセットは、30の片手ジェスチャーと30のバイマニュアルジェスチャーを含む60のジェスチャークラスを実行する41の参加者を対象としている。
EgoEMGとそのベンチマークは、EMGとビジョンを用いたマルチモーダルハンドポーズ推定に関する将来の研究の基礎を確立している。
- 参考スコア(独自算出の注目度): 21.77386351667022
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Surface electromyography (sEMG) records muscle activity during hand movement and can be decoded to recover detailed hand articulation. EMG and egocentric vision are complementary for hand sensing: EMG captures fine-grained finger articulation even under occlusion and poor lighting, while vision provides global hand configuration. However, no existing dataset synchronizes both modalities. We present EgoEMG, a multimodal egocentric dataset for bimanual hand pose estimation. EgoEMG includes bilateral wristband EMG with 16 total channels (8 per wrist) sampled at 2 kHz, 120 Hz IMU, egocentric wide-angle RGB video, external RGB-D video, and mocap-derived hand motion with wrist articulation angles. The dataset covers 41 participants performing 60 gesture classes, including 30 single-hand gestures and 30 bimanual gestures, totaling more than 10 hours of recording. We also introduce a benchmark with three tasks -- EMG-to-pose, vision-to-pose, and EMG+vision fusion -- under a shared joint-angle prediction target and common generalization split axes (cross-gesture, cross-user, and combined). As baselines, we evaluate EMGFormer for EMG-to-pose and generic ResNet/ViT backbones for vision-to-pose. We further study a residual fusion architecture that improves over matched lightweight vision-only baselines. Together, EgoEMG and its benchmark establish a foundation for future research on multimodal hand pose estimation with EMG and vision.
- Abstract(参考訳): 表面筋電図(sEMG)は手の動き中の筋活動を記録し、詳細な手関節を復元するためにデコードすることができる。
EMGと自我中心の視覚は、手触覚の補完である:EMGは、閉塞や照明の弱さの下でも、きめ細かい指の関節を捉え、視覚は、グローバルな手の設定を提供する。
しかし、両方のモダリティを同期する既存のデータセットは存在しない。
両手ポーズ推定のためのマルチモーダル・エゴセントリック・データセットであるEgoEMGを提案する。
EgoEMGは、2kHz、120Hz IMU、エゴセントリック広角RGBビデオ、外部RGB-Dビデオ、手首関節角度のモカプ由来の手の動きをサンプリングした16チャンネル(手首あたり8チャンネル)の両側リストバンドEMGを含んでいる。
データセットは、30の片手ジェスチャーと30のバイマニュアルジェスチャーを含む60のジェスチャークラスを実行する41の参加者をカバーし、合計10時間以上の録音を行う。
また,共同角度予測ターゲットと共通一般化分割軸(クロスジェスチャ,クロスユーザ,組み合わせ)の共有の下で,EMG-to-pose, Vision-to-pose,EMG+vision fusionという3つのタスクのベンチマークを導入する。
ベースラインとして、EMG-to-poseのためのEMGFormerと、ビジョン-to-poseのための汎用ResNet/ViTバックボーンの評価を行う。
さらに、一致した軽量視力のみのベースラインよりも優れた残差融合アーキテクチャについて検討する。
EgoEMGとそのベンチマークは、EMGとビジョンを用いたマルチモーダルハンドポーズ推定に関する将来の研究の基礎を確立している。
関連論文リスト
- Decoding High-Dimensional Finger Motion from EMG Using Riemannian Features and RNNs [1.1534313664323634]
本稿では,コンシューマグレードハードウェアのみを用いた連続EMG-to-kinematicsレグレッションのためのエンドツーエンドフレームワークを提案する。
このフレームワークは、8チャンネルのEMGアームバンドと1つのウェブカメラと自動同期処理を組み合わせたものである。
論文 参考訳(メタデータ) (2026-04-24T12:27:33Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoExOR: An Ego-Exo-Centric Operating Room Dataset for Surgical Activity Understanding [43.66860935790616]
EgoExORは、ファーストパーソンとサードパーソンの視点を融合する最初のオペレーティングルーム(OR)データセットである。
それは、ウェアラブルグラスからの自我中心データ(RGB、視線、ハンドトラッキング、オーディオ)、RGB-Dカメラからの遠心的RGBと奥行き、そして超音波画像を統合する。
2つの応用された最先端モデルの手術シーングラフ生成性能を評価する。
論文 参考訳(メタデータ) (2025-05-30T07:02:00Z) - GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images [44.50428701650495]
GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。
基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
論文 参考訳(メタデータ) (2025-03-08T05:48:53Z) - GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - emg2pose: A Large and Diverse Benchmark for Surface Electromyographic Hand Pose Estimation [12.566524562446467]
信頼性と常に利用可能な手ポーズ推論は、人間とコンピュータの相互作用に対する新しい直感的な制御スキームをもたらす可能性がある。
装着可能な手首型表面筋電図(sEMG)は有望な代替手段である。
emg2poseは、高品質の手ポーズラベルと手首のsEMGレコードの公開データセットとして最大である。
論文 参考訳(メタデータ) (2024-12-02T23:39:37Z) - SiMA-Hand: Boosting 3D Hand-Mesh Reconstruction by Single-to-Multi-View
Adaptation [90.59734612754222]
RGB画像から3Dハンドメッシュを推定することは、最も難しい問題のひとつです。
このタスクに対する既存の試みは、オクルージョンが画像空間を支配しているときに失敗することが多い。
本稿では,Single-to-Multi-view Adaptationによるメッシュ再構成性能の向上を目的としたSiMA-Handを提案する。
論文 参考訳(メタデータ) (2024-02-02T13:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。