論文の概要: Deep Multimodal Fusion for Surgical Feedback Classification
- arxiv url: http://arxiv.org/abs/2312.03231v1
- Date: Wed, 6 Dec 2023 01:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:16:58.978022
- Title: Deep Multimodal Fusion for Surgical Feedback Classification
- Title(参考訳): 外科的フィードバック分類のためのdeep multimodal fusion
- Authors: Rafal Kocielnik, Elyssa Y. Wong, Timothy N. Chu, Lydia Lin, De-An
Huang, Jiayun Wang, Anima Anandkumar, Andrew J. Hung
- Abstract要約: 外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
- 参考スコア(独自算出の注目度): 70.53297887843802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantification of real-time informal feedback delivered by an experienced
surgeon to a trainee during surgery is important for skill improvements in
surgical training. Such feedback in the live operating room is inherently
multimodal, consisting of verbal conversations (e.g., questions and answers) as
well as non-verbal elements (e.g., through visual cues like pointing to
anatomic elements). In this work, we leverage a clinically-validated
five-category classification of surgical feedback: "Anatomic", "Technical",
"Procedural", "Praise" and "Visual Aid". We then develop a multi-label machine
learning model to classify these five categories of surgical feedback from
inputs of text, audio, and video modalities. The ultimate goal of our work is
to help automate the annotation of real-time contextual surgical feedback at
scale. Our automated classification of surgical feedback achieves AUCs ranging
from 71.5 to 77.6 with the fusion improving performance by 3.1%. We also show
that high-quality manual transcriptions of feedback audio from experts improve
AUCs to between 76.5 and 96.2, which demonstrates a clear path toward future
improvements. Empirically, we find that the Staged training strategy, with
first pre-training each modality separately and then training them jointly, is
more effective than training different modalities altogether. We also present
intuitive findings on the importance of modalities for different feedback
categories. This work offers an important first look at the feasibility of
automated classification of real-world live surgical feedback based on text,
audio, and video modalities.
- Abstract(参考訳): 経験豊富な外科医が手術中の研修生に送った実時間非公式フィードバックの定量化は,手術訓練のスキル向上に重要である。
実際の手術室でのこのようなフィードバックは本質的にマルチモーダルであり、言語会話(例えば、質問と回答)と非言語的要素(例えば、解剖学的要素を指し示すような視覚的な手がかりを通して)で構成される。
本研究では,外科的フィードバックの「解剖学的」「技術的」「手続き的」「プレーズ」「視覚補助」の5つのカテゴリーを臨床的に評価した。
次に, テキスト, 音声, 映像の入力から術中フィードバックの5つのカテゴリを分類するマルチラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
術中フィードバックの自動分類は71.5から77.6までのaucsを達成し,融合性能は3.1%向上した。
また,AUCを76.5から96.2に改良したフィードバック音声の高品質な手書き書き起こしが,今後の改善に向けた明確な道筋を示すことを示す。
経験的に、まず各モードを個別に事前訓練し、その後共同でトレーニングするステージドトレーニング戦略は、異なるモダリティを完全にトレーニングするよりも効果的であることがわかった。
また,異なるフィードバックカテゴリに対するモダリティの重要性に関する直感的な知見も提示する。
本研究は,テキスト,音声,ビデオのモダリティに基づく実世界のライブフィードバックの自動分類の実現可能性について,第一に考察する。
関連論文リスト
- EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文 参考訳(メタデータ) (2024-12-01T10:35:12Z) - Multi-Modal Self-Supervised Learning for Surgical Feedback Effectiveness Assessment [66.6041949490137]
そこで本研究では,音声による音声入力とそれに対応する手術映像からの情報を統合して,フィードバックの有効性を予測する手法を提案する。
以上の結果から,手書きフィードバックと手術映像の両方が,訓練者の行動変化を個別に予測できることがわかった。
本研究は,手術フィードバックの自動評価を推進するためのマルチモーダル学習の可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-17T00:13:00Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgment: Segmentation-enabled Semantic Search and Creation of Visual
Question and Feedback to Support Video-Based Surgery Learning [4.509082876666929]
Surgmentは、専門家の外科医が手術記録に基づいたフィードバックで運動を作成するのを助けるシステムだ。
セグメンテーションパイプラインは、外科医が望む視覚的な質問やフィードバックを作成することができる。
11名の外科医による評価研究において、被験者は関心のフレームを特定するための検索・バイ・スケッチ・アプローチを称賛し、結果として得られた画像に基づく質問やフィードバックは高い教育的価値を持つことがわかった。
論文 参考訳(メタデータ) (2024-02-27T21:42:23Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。