論文の概要: SHANDS: A Multi-View Dataset and Benchmark for Surgical Hand-Gesture and Error Recognition Toward Medical Training
- arxiv url: http://arxiv.org/abs/2603.26400v1
- Date: Fri, 27 Mar 2026 13:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.516109
- Title: SHANDS: A Multi-View Dataset and Benchmark for Surgical Hand-Gesture and Error Recognition Toward Medical Training
- Title(参考訳): SHANDS: 外科的ハンドジェスチャのための多視点データセットとベンチマークと医療訓練に向けた誤り認識
- Authors: Le Ma, Thiago Freitas dos Santos, Nadia Magnenat-Thalmann, Katarzyna Wac,
- Abstract要約: surgery-Handsは、外科的手振りと誤認識のための大規模なマルチビュービデオデータセットである。
ビデオは15のジェスチャプリミティブでフレームレベルで注釈付けされ、8つのトレーニングエラータイプの検証された分類が含まれている。
SHandsは、外科訓練のための堅牢でスケーラブルなAIシステムの開発をサポートするために、一般公開されている。
- 参考スコア(独自算出の注目度): 1.9550493958421307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In surgical training for medical students, proficiency development relies on expert-led skill assessment, which is costly, time-limited, difficult to scale, and its expertise remains confined to institutions with available specialists. Automated AI-based assessment offers a viable alternative, but progress is constrained by the lack of datasets containing realistic trainee errors and the multi-view variability needed to train robust computer vision approaches. To address this gap, we present Surgical-Hands (SHands), a large-scale multi-view video dataset for surgical hand-gesture and error recognition for medical training. \textsc{SHands} captures linear incision and suturing using five RGB cameras from complementary viewpoints, performed by 52 participants (20 experts and 32 trainees), each completing three standardized trials per procedure. The videos are annotated at the frame level with 15 gesture primitives and include a validated taxonomy of 8 trainee error types, enabling both gesture recognition and error detection. We further define standardized evaluation protocols for single-view, multi-view, and cross-view generalization, and benchmark state-of-the-art deep learning models on the dataset. SHands is publicly released to support the development of robust and scalable AI systems for surgical training grounded in clinically curated domain knowledge.
- Abstract(参考訳): 医学生の外科訓練において、熟練度開発は専門家主導のスキルアセスメントに依存しており、それは費用がかかり、時間制限があり、スケールが困難であり、その専門知識は利用可能な専門家を持つ機関に限られている。
AIベースの自動評価は実行可能な代替手段だが、現実的なトレーニングエラーを含むデータセットの欠如と、堅牢なコンピュータビジョンアプローチのトレーニングに必要な多視点変動によって、進歩は制限されている。
このギャップに対処するため,外科的手振りと誤認識のための大規模多視点ビデオデータセットであるSSHandsを医用訓練用として提示した。
\textsc{SHands} は、52人の参加者(20人の専門家と32人の研修生)が行う5つのRGBカメラによる線形切開と縫合を補完的な視点から捉え、それぞれが手順ごとに3つの標準化されたトライアルを完了させる。
ビデオは15のジェスチャプリミティブでフレームレベルで注釈付けされ、8つの訓練者エラータイプの検証された分類が含まれており、ジェスチャー認識とエラー検出の両方を可能にしている。
さらに、シングルビュー、マルチビュー、クロスビューの一般化のための標準化された評価プロトコルを定義し、データセット上で最先端のディープラーニングモデルをベンチマークする。
SHandsは、臨床的にキュレートされたドメイン知識に基づく外科訓練のための堅牢でスケーラブルなAIシステムの開発をサポートするために、一般公開されている。
関連論文リスト
- A generalizable foundation model for intraoperative understanding across surgical procedures [1.0412442875956527]
術中画像理解のための汎用基盤モデルであるZENを導入し,21以上の術式から400万フレーム以上をトレーニングした。
ZENは、既存の外科的基礎モデルより一貫して優れており、堅牢な多目的一般化を実証している。
論文 参考訳(メタデータ) (2026-02-14T06:52:42Z) - A benchmark for video-based laparoscopic skill analysis and assessment [1.5734501497837607]
本稿では,4つの腹腔鏡下トレーニングタスクのステレオビデオ記録1270件からなる腹腔鏡下スキル分析・アセスメントデータセットについて紹介する。
各録音には3つの独立したレーダから集約された構造化されたスキル評価と、タスク固有のエラーの有無を示すバイナリラベルがアノテートされる。
ビデオベースのスキルアセスメントとエラー認識のための既存手法と新規手法のベンチマークを容易にするため、各タスクに予め定義されたデータ分割を提供する。
論文 参考訳(メタデータ) (2026-02-10T15:59:19Z) - DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model [92.66916452260553]
DermNIOは皮膚科学の多目的基盤モデルである。
自己教師型学習パラダイムを増強する、新しいハイブリッド事前学習フレームワークが組み込まれている。
さまざまなタスクにおいて、最先端のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-17T00:41:39Z) - ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection [54.270188252068145]
ProstaTDは、ロボット補助前立腺切除術の技術的要求領域から開発された、外科的三重項検出のための大規模なデータセットである。
このデータセットは、71,775の動画フレームと196,490の注釈付きトリプルトインスタンスで構成され、複数の機関で実施された21の手術から収集された。
ProstaTDは、これまでで最大かつ最も多様な3重項データセットであり、単純な分類から正確な空間的境界と時間的境界を持つ完全な検出へとフィールドを移動している。
論文 参考訳(メタデータ) (2025-06-01T19:29:39Z) - Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers [1.194275822303467]
不規則サンプルマルチモーダル計測(ViTiMM)のためのビジョントランス
MIMIC-IVデータセットから6,175人の患者を対象に,不規則標本化マルチモーダル計測(ViTiMM)のビジョントランスフォーマーを用いて,データ前処理とモデリングを簡略化するだけでなく,院内死亡と表現の予測における最先端の手法よりも優れていた。
私たちの研究は、トレーニングの複雑さを(視覚的に)迅速なエンジニアリングに還元し、参入障壁を低くし、トレーニングのためのノーコードソリューションを可能にすることで、マルチモーダルな医療AIの進歩を促すことを願っています。
論文 参考訳(メタデータ) (2025-01-30T09:52:15Z) - CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools [1.7059333957102913]
既存のデータセットは、外科固有のダイナミックスを捉えるのに失敗した、過度に汎用的な追跡形式に依存している。
外科手術における多クラス多ツール追跡のための特別なデータセットであるCholecTrack20を紹介する。
データセットは20のフル長の手術ビデオからなり、1fpsで注釈付けされ、35Kフレーム以上と65Kラベルのツールインスタンスが生成される。
論文 参考訳(メタデータ) (2023-12-12T15:18:15Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。