論文の概要: Deep Multimodal Fusion for Surgical Feedback Classification
- arxiv url: http://arxiv.org/abs/2312.03231v1
- Date: Wed, 6 Dec 2023 01:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:16:58.978022
- Title: Deep Multimodal Fusion for Surgical Feedback Classification
- Title(参考訳): 外科的フィードバック分類のためのdeep multimodal fusion
- Authors: Rafal Kocielnik, Elyssa Y. Wong, Timothy N. Chu, Lydia Lin, De-An
Huang, Jiayun Wang, Anima Anandkumar, Andrew J. Hung
- Abstract要約: 外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
- 参考スコア(独自算出の注目度): 70.53297887843802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantification of real-time informal feedback delivered by an experienced
surgeon to a trainee during surgery is important for skill improvements in
surgical training. Such feedback in the live operating room is inherently
multimodal, consisting of verbal conversations (e.g., questions and answers) as
well as non-verbal elements (e.g., through visual cues like pointing to
anatomic elements). In this work, we leverage a clinically-validated
five-category classification of surgical feedback: "Anatomic", "Technical",
"Procedural", "Praise" and "Visual Aid". We then develop a multi-label machine
learning model to classify these five categories of surgical feedback from
inputs of text, audio, and video modalities. The ultimate goal of our work is
to help automate the annotation of real-time contextual surgical feedback at
scale. Our automated classification of surgical feedback achieves AUCs ranging
from 71.5 to 77.6 with the fusion improving performance by 3.1%. We also show
that high-quality manual transcriptions of feedback audio from experts improve
AUCs to between 76.5 and 96.2, which demonstrates a clear path toward future
improvements. Empirically, we find that the Staged training strategy, with
first pre-training each modality separately and then training them jointly, is
more effective than training different modalities altogether. We also present
intuitive findings on the importance of modalities for different feedback
categories. This work offers an important first look at the feasibility of
automated classification of real-world live surgical feedback based on text,
audio, and video modalities.
- Abstract(参考訳): 経験豊富な外科医が手術中の研修生に送った実時間非公式フィードバックの定量化は,手術訓練のスキル向上に重要である。
実際の手術室でのこのようなフィードバックは本質的にマルチモーダルであり、言語会話(例えば、質問と回答)と非言語的要素(例えば、解剖学的要素を指し示すような視覚的な手がかりを通して)で構成される。
本研究では,外科的フィードバックの「解剖学的」「技術的」「手続き的」「プレーズ」「視覚補助」の5つのカテゴリーを臨床的に評価した。
次に, テキスト, 音声, 映像の入力から術中フィードバックの5つのカテゴリを分類するマルチラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
術中フィードバックの自動分類は71.5から77.6までのaucsを達成し,融合性能は3.1%向上した。
また,AUCを76.5から96.2に改良したフィードバック音声の高品質な手書き書き起こしが,今後の改善に向けた明確な道筋を示すことを示す。
経験的に、まず各モードを個別に事前訓練し、その後共同でトレーニングするステージドトレーニング戦略は、異なるモダリティを完全にトレーニングするよりも効果的であることがわかった。
また,異なるフィードバックカテゴリに対するモダリティの重要性に関する直感的な知見も提示する。
本研究は,テキスト,音声,ビデオのモダリティに基づく実世界のライブフィードバックの自動分類の実現可能性について,第一に考察する。
関連論文リスト
- Multi-Modal Self-Supervised Learning for Surgical Feedback Effectiveness Assessment [66.6041949490137]
そこで本研究では,音声による音声入力とそれに対応する手術映像からの情報を統合して,フィードバックの有効性を予測する手法を提案する。
以上の結果から,手書きフィードバックと手術映像の両方が,訓練者の行動変化を個別に予測できることがわかった。
本研究は,手術フィードバックの自動評価を推進するためのマルチモーダル学習の可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-17T00:13:00Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgment: Segmentation-enabled Semantic Search and Creation of Visual
Question and Feedback to Support Video-Based Surgery Learning [4.509082876666929]
Surgmentは、専門家の外科医が手術記録に基づいたフィードバックで運動を作成するのを助けるシステムだ。
セグメンテーションパイプラインは、外科医が望む視覚的な質問やフィードバックを作成することができる。
11名の外科医による評価研究において、被験者は関心のフレームを特定するための検索・バイ・スケッチ・アプローチを称賛し、結果として得られた画像に基づく質問やフィードバックは高い教育的価値を持つことがわかった。
論文 参考訳(メタデータ) (2024-02-27T21:42:23Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Using Hand Pose Estimation To Automate Open Surgery Training Feedback [0.0]
本研究は,外科医の自動訓練における最先端のコンピュータビジョンアルゴリズムの利用を促進することを目的としている。
2次元手のポーズを推定することにより,手の動きをモデル化し,手術器具との相互作用をモデル化する。
論文 参考訳(メタデータ) (2022-11-13T21:47:31Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。