論文の概要: Deep Multimodal Fusion for Surgical Feedback Classification
- arxiv url: http://arxiv.org/abs/2312.03231v1
- Date: Wed, 6 Dec 2023 01:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:16:58.978022
- Title: Deep Multimodal Fusion for Surgical Feedback Classification
- Title(参考訳): 外科的フィードバック分類のためのdeep multimodal fusion
- Authors: Rafal Kocielnik, Elyssa Y. Wong, Timothy N. Chu, Lydia Lin, De-An
Huang, Jiayun Wang, Anima Anandkumar, Andrew J. Hung
- Abstract要約: 外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
- 参考スコア(独自算出の注目度): 70.53297887843802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantification of real-time informal feedback delivered by an experienced
surgeon to a trainee during surgery is important for skill improvements in
surgical training. Such feedback in the live operating room is inherently
multimodal, consisting of verbal conversations (e.g., questions and answers) as
well as non-verbal elements (e.g., through visual cues like pointing to
anatomic elements). In this work, we leverage a clinically-validated
five-category classification of surgical feedback: "Anatomic", "Technical",
"Procedural", "Praise" and "Visual Aid". We then develop a multi-label machine
learning model to classify these five categories of surgical feedback from
inputs of text, audio, and video modalities. The ultimate goal of our work is
to help automate the annotation of real-time contextual surgical feedback at
scale. Our automated classification of surgical feedback achieves AUCs ranging
from 71.5 to 77.6 with the fusion improving performance by 3.1%. We also show
that high-quality manual transcriptions of feedback audio from experts improve
AUCs to between 76.5 and 96.2, which demonstrates a clear path toward future
improvements. Empirically, we find that the Staged training strategy, with
first pre-training each modality separately and then training them jointly, is
more effective than training different modalities altogether. We also present
intuitive findings on the importance of modalities for different feedback
categories. This work offers an important first look at the feasibility of
automated classification of real-world live surgical feedback based on text,
audio, and video modalities.
- Abstract(参考訳): 経験豊富な外科医が手術中の研修生に送った実時間非公式フィードバックの定量化は,手術訓練のスキル向上に重要である。
実際の手術室でのこのようなフィードバックは本質的にマルチモーダルであり、言語会話(例えば、質問と回答)と非言語的要素(例えば、解剖学的要素を指し示すような視覚的な手がかりを通して)で構成される。
本研究では,外科的フィードバックの「解剖学的」「技術的」「手続き的」「プレーズ」「視覚補助」の5つのカテゴリーを臨床的に評価した。
次に, テキスト, 音声, 映像の入力から術中フィードバックの5つのカテゴリを分類するマルチラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
術中フィードバックの自動分類は71.5から77.6までのaucsを達成し,融合性能は3.1%向上した。
また,AUCを76.5から96.2に改良したフィードバック音声の高品質な手書き書き起こしが,今後の改善に向けた明確な道筋を示すことを示す。
経験的に、まず各モードを個別に事前訓練し、その後共同でトレーニングするステージドトレーニング戦略は、異なるモダリティを完全にトレーニングするよりも効果的であることがわかった。
また,異なるフィードバックカテゴリに対するモダリティの重要性に関する直感的な知見も提示する。
本研究は,テキスト,音声,ビデオのモダリティに基づく実世界のライブフィードバックの自動分類の実現可能性について,第一に考察する。
関連論文リスト
- Surgment: Segmentation-enabled Semantic Search and Creation of Visual
Question and Feedback to Support Video-Based Surgery Learning [4.509082876666929]
Surgmentは、専門家の外科医が手術記録に基づいたフィードバックで運動を作成するのを助けるシステムだ。
セグメンテーションパイプラインは、外科医が望む視覚的な質問やフィードバックを作成することができる。
11名の外科医による評価研究において、被験者は関心のフレームを特定するための検索・バイ・スケッチ・アプローチを称賛し、結果として得られた画像に基づく質問やフィードバックは高い教育的価値を持つことがわかった。
論文 参考訳(メタデータ) (2024-02-27T21:42:23Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Using Hand Pose Estimation To Automate Open Surgery Training Feedback [0.0]
本研究は,外科医の自動訓練における最先端のコンピュータビジョンアルゴリズムの利用を促進することを目的としている。
2次元手のポーズを推定することにより,手の動きをモデル化し,手術器具との相互作用をモデル化する。
論文 参考訳(メタデータ) (2022-11-13T21:47:31Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Real-time Informative Surgical Skill Assessment with Gaussian Process
Learning [12.019641896240245]
本研究は,ESSBSのためのガウス的プロセス学習に基づく自動的客観的外科的スキル評価手法を提案する。
提案手法は,計測器の動きを内視鏡座標に投影し,データ次元を減少させる。
実験結果から,完全外科手術における100%の予測精度と,リアルタイムの予測評価における90%の精度が得られた。
論文 参考訳(メタデータ) (2021-12-05T15:35:40Z) - Automatic Gesture Recognition in Robot-assisted Surgery with
Reinforcement Learning and Tree Search [63.07088785532908]
共同手術におけるジェスチャー分割と分類のための強化学習と木探索に基づく枠組みを提案する。
我々のフレームワークは,JIGSAWSデータセットのサチューリングタスクにおいて,精度,編集スコア,F1スコアの点で,既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-02-20T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。