論文の概要: Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment
- arxiv url: http://arxiv.org/abs/2412.00760v1
- Date: Sun, 01 Dec 2024 10:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:06.098769
- Title: Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment
- Title(参考訳): 外科訓練におけるフィードバック分析の自動化:検出・分類・評価
- Authors: Firdavs Nasriddinov, Rafal Kocielnik, Arushi Gupta, Cherine Yang, Elyssa Wong, Anima Anandkumar, Andrew Hung,
- Abstract要約: 本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
- 参考スコア(独自算出の注目度): 65.70317151363204
- License:
- Abstract: This work introduces the first framework for reconstructing surgical dialogue from unstructured real-world recordings, which is crucial for characterizing teaching tasks. In surgical training, the formative verbal feedback that trainers provide to trainees during live surgeries is crucial for ensuring safety, correcting behavior immediately, and facilitating long-term skill acquisition. However, analyzing and quantifying this feedback is challenging due to its unstructured and specialized nature. Automated systems are essential to manage these complexities at scale, allowing for the creation of structured datasets that enhance feedback analysis and improve surgical education. Our framework integrates voice activity detection, speaker diarization, and automated speech recaognition, with a novel enhancement that 1) removes hallucinations (non-existent utterances generated during speech recognition fueled by noise in the operating room) and 2) separates speech from trainers and trainees using few-shot voice samples. These aspects are vital for reconstructing accurate surgical dialogues and understanding the roles of operating room participants. Using data from 33 real-world surgeries, we demonstrated the system's capability to reconstruct surgical teaching dialogues and detect feedback instances effectively (F1 score of 0.79+/-0.07). Moreover, our hallucination removal step improves feedback detection performance by ~14%. Evaluation on downstream clinically relevant tasks of predicting Behavioral Adjustment of trainees and classifying Technical feedback, showed performances comparable to manual annotations with F1 scores of 0.82+/0.03 and 0.81+/0.03 respectively. These results highlight the effectiveness of our framework in supporting clinically relevant tasks and improving over manual methods.
- Abstract(参考訳): 本研究は,非構造化実世界記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
しかし、このフィードバックを分析して定量化することは、その非構造的で特殊な性質のため難しい。
自動システムはこれらの複雑さを大規模に管理するために不可欠であり、フィードバック分析を強化し、外科教育を改善する構造化データセットを作成することができる。
我々のフレームワークは、音声活動の検出、話者ダイアリゼーション、自動音声再帰を新たな拡張と統合する。
1)幻覚(手術室の騒音による音声認識中に発生する非存在発話)を除去し、
2) 音声サンプルを用いて, 訓練者と訓練者の発話を分離する。
これらの側面は、正確な外科的対話を再構築し、手術室の参加者の役割を理解するのに不可欠である。
実世界の33の外科手術データを用いて,手術指導対話を再構築し,フィードバックインスタンスを効果的に検出する能力を示した(F1スコア0.79+/-0.07)。
さらに,幻覚除去はフィードバック検出性能を約14%向上させる。
F1スコア0.82+/0.03と0.81+/0.03のマニュアルアノテーションに匹敵する性能を示した。
これらの結果から,臨床関連タスクのサポートと手作業による改善におけるフレームワークの有効性が示唆された。
関連論文リスト
- Detecting Activities of Daily Living in Egocentric Video to Contextualize Hand Use at Home in Outpatient Neurorehabilitation Settings [2.9158689853305693]
本研究では, 現実のリハビリテーション環境において, 日常生活活動(ADL)を効果的に認識することが可能であることを示す。
健常者16名を対象に,エゴセントリックな映像を2261分収録した複雑なデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-12-14T14:38:27Z) - Multi-Modal Self-Supervised Learning for Surgical Feedback Effectiveness Assessment [66.6041949490137]
そこで本研究では,音声による音声入力とそれに対応する手術映像からの情報を統合して,フィードバックの有効性を予測する手法を提案する。
以上の結果から,手書きフィードバックと手術映像の両方が,訓練者の行動変化を個別に予測できることがわかった。
本研究は,手術フィードバックの自動評価を推進するためのマルチモーダル学習の可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-17T00:13:00Z) - Deep Multimodal Fusion for Surgical Feedback Classification [70.53297887843802]
外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
論文 参考訳(メタデータ) (2023-12-06T01:59:47Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Automated Fidelity Assessment for Strategy Training in Inpatient
Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。
標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。
本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文 参考訳(メタデータ) (2022-09-14T15:33:30Z) - Simulation-to-Real domain adaptation with teacher-student learning for
endoscopic instrument segmentation [1.1047993346634768]
注釈付きシミュレーションデータとラベルのない実データから共同学習する教師学習手法を紹介します。
3つのデータセットの実証結果は、提案したフレームワークの有効性を浮き彫りにする。
論文 参考訳(メタデータ) (2021-03-02T09:30:28Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z) - A Review of Computational Approaches for Evaluation of Rehabilitation
Exercises [58.720142291102135]
本稿では,モーションキャプチャシステムを用いたリハビリテーションプログラムにおける患者のパフォーマンスを評価するための計算手法についてレビューする。
エクササイズ評価のための再検討された計算手法は, 離散的な運動スコア, ルールベース, テンプレートベースアプローチの3つのカテゴリに分類される。
論文 参考訳(メタデータ) (2020-02-29T22:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。