論文の概要: EHWGesture -- A dataset for multimodal understanding of clinical gestures
- arxiv url: http://arxiv.org/abs/2509.07525v1
- Date: Tue, 09 Sep 2025 09:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.243071
- Title: EHWGesture -- A dataset for multimodal understanding of clinical gestures
- Title(参考訳): EHWGesture -- 臨床ジェスチャーのマルチモーダル理解のためのデータセット
- Authors: Gianluca Amprimo, Alberto Ancilotto, Alessandro Savino, Fabio Quazzolo, Claudia Ferraris, Gabriella Olmo, Elisabetta Farella, Stefano Di Carlo,
- Abstract要約: EHWGestureは、臨床的に関連するジェスチャーを特徴とするジェスチャー理解のためのマルチモーダルビデオデータセットである。
2台の高解像度のRGB-Depthカメラとイベントカメラを使って、25人の健康な被験者から撮影された1,100以上の録音(6時間)が含まれている。
- 参考スコア(独自算出の注目度): 40.20497299469609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand gesture understanding is essential for several applications in human-computer interaction, including automatic clinical assessment of hand dexterity. While deep learning has advanced static gesture recognition, dynamic gesture understanding remains challenging due to complex spatiotemporal variations. Moreover, existing datasets often lack multimodal and multi-view diversity, precise ground-truth tracking, and an action quality component embedded within gestures. This paper introduces EHWGesture, a multimodal video dataset for gesture understanding featuring five clinically relevant gestures. It includes over 1,100 recordings (6 hours), captured from 25 healthy subjects using two high-resolution RGB-Depth cameras and an event camera. A motion capture system provides precise ground-truth hand landmark tracking, and all devices are spatially calibrated and synchronized to ensure cross-modal alignment. Moreover, to embed an action quality task within gesture understanding, collected recordings are organized in classes of execution speed that mirror clinical evaluations of hand dexterity. Baseline experiments highlight the dataset's potential for gesture classification, gesture trigger detection, and action quality assessment. Thus, EHWGesture can serve as a comprehensive benchmark for advancing multimodal clinical gesture understanding.
- Abstract(参考訳): ハンドジェスチャ理解は人とコンピュータの相互作用におけるいくつかの応用において不可欠であり、手指のディクスタリティの自動評価を含む。
ディープラーニングには高度な静的ジェスチャー認識があるが、複雑な時空間変動のため、動的ジェスチャー理解は難しいままである。
さらに、既存のデータセットには、マルチモーダルとマルチビューの多様性、正確な地平線追跡、ジェスチャに埋め込まれたアクション品質コンポーネントが欠如していることが多い。
本稿では,5つの臨床的なジェスチャーを特徴とするジェスチャー理解のためのマルチモーダルビデオデータセットであるEHWGestureを紹介する。
2台の高解像度のRGB-Depthカメラとイベントカメラを使って、25人の健康な被験者から撮影された1,100以上の録音(6時間)が含まれている。
モーションキャプチャシステムは、精密な接地トラストのランドマーク追跡を提供し、すべてのデバイスは空間的校正と同期により、クロスモーダルアライメントを保証する。
さらに、ジェスチャー理解に行動品質タスクを組み込むために、手指の器用さの臨床的評価を反映した実行速度のクラスに、収集した記録を整理する。
ベースライン実験では、データセットのジェスチャー分類、ジェスチャートリガー検出、アクション品質評価の可能性を強調している。
このように、EHWGestureはマルチモーダルな臨床ジェスチャー理解を促進するための総合的なベンチマークとして機能する。
関連論文リスト
- Multi-Modal Gesture Recognition from Video and Surgical Tool Pose Information via Motion Invariants [9.77463802740227]
外科的ジェスチャーをリアルタイムで認識することは、自動化された活動認識、スキルアセスメント、術中援助、そして最終的には外科的自動化への一歩である。
マルチモーダルニューラルネットワークにおける最近の研究では、視覚とキネマティクスのデータの関係が学習されているが、現在のアプローチでは、キネマティクス情報を独立した信号として扱うことができ、ツールチップのポーズには基礎的な関係はない。
JIGSAWSサチューリングデータセットにおいて、不変信号とツール位置を組み合わせることにより、ジェスチャー認識が90.3%の精度で向上することを示す。
論文 参考訳(メタデータ) (2025-03-19T19:02:58Z) - Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition [5.787586057526269]
外科的活動認識は、多視点カメラ記録から活動やフェーズを検出する重要なコンピュータビジョンタスクである。
既存のSARモデルは、細粒度のクリニックの動きや多視点の知識を説明できないことが多い。
本稿では, マルチビュー・プレトレーニング・フレームワークであるMultiview Pretraining for Video-Pose Surgery Activity Recognition PreViPSを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:08:04Z) - Capturing complex hand movements and object interactions using machine learning-powered stretchable smart textile gloves [9.838013581109681]
手の動きをリアルタイムに追跡することは、人間とコンピュータの相互作用、メタバース、ロボット工学、遠隔医療に多くの応用がある。
そこで本研究では, 伸縮性, 洗浄性を有するスマートグローブ, ヘリカルセンサ糸, 慣性測定ユニットを用いた手指運動の高精度かつダイナミックな追跡を報告する。
センサ糸は高いダイナミックレンジを有し, 0.005 %の低い155 %のひずみに応答し, 広範囲の使用および洗浄サイクルの安定性を示す。
論文 参考訳(メタデータ) (2024-10-03T05:32:16Z) - Learning Visuotactile Skills with Two Multifingered Hands [80.99370364907278]
マルチフィンガーハンドとバイソタクティブルデータを用いたバイマニアルシステムを用いて,人間の実演からの学習を探索する。
以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。
論文 参考訳(メタデータ) (2024-04-25T17:59:41Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and
Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。
マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-03-10T14:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。