Fugu-MT 論文翻訳(概要): Deep Multimodal Fusion for Surgical Feedback Classification

論文の概要: Deep Multimodal Fusion for Surgical Feedback Classification

arxiv url: http://arxiv.org/abs/2312.03231v1
Date: Wed, 6 Dec 2023 01:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 16:16:58.978022
Title: Deep Multimodal Fusion for Surgical Feedback Classification
Title（参考訳）: 外科的フィードバック分類のためのdeep multimodal fusion
Authors: Rafal Kocielnik, Elyssa Y. Wong, Timothy N. Chu, Lydia Lin, De-An Huang, Jiayun Wang, Anima Anandkumar, Andrew J. Hung
Abstract要約: 外科的フィードバックの5カテゴリー分類を臨床的に検証した。次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
参考スコア（独自算出の注目度）: 70.53297887843802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantification of real-time informal feedback delivered by an experienced surgeon to a trainee during surgery is important for skill improvements in surgical training. Such feedback in the live operating room is inherently multimodal, consisting of verbal conversations (e.g., questions and answers) as well as non-verbal elements (e.g., through visual cues like pointing to anatomic elements). In this work, we leverage a clinically-validated five-category classification of surgical feedback: "Anatomic", "Technical", "Procedural", "Praise" and "Visual Aid". We then develop a multi-label machine learning model to classify these five categories of surgical feedback from inputs of text, audio, and video modalities. The ultimate goal of our work is to help automate the annotation of real-time contextual surgical feedback at scale. Our automated classification of surgical feedback achieves AUCs ranging from 71.5 to 77.6 with the fusion improving performance by 3.1%. We also show that high-quality manual transcriptions of feedback audio from experts improve AUCs to between 76.5 and 96.2, which demonstrates a clear path toward future improvements. Empirically, we find that the Staged training strategy, with first pre-training each modality separately and then training them jointly, is more effective than training different modalities altogether. We also present intuitive findings on the importance of modalities for different feedback categories. This work offers an important first look at the feasibility of automated classification of real-world live surgical feedback based on text, audio, and video modalities.
Abstract（参考訳）: 経験豊富な外科医が手術中の研修生に送った実時間非公式フィードバックの定量化は,手術訓練のスキル向上に重要である。実際の手術室でのこのようなフィードバックは本質的にマルチモーダルであり、言語会話(例えば、質問と回答)と非言語的要素(例えば、解剖学的要素を指し示すような視覚的な手がかりを通して)で構成される。本研究では,外科的フィードバックの「解剖学的」「技術的」「手続き的」「プレーズ」「視覚補助」の5つのカテゴリーを臨床的に評価した。次に, テキスト, 音声, 映像の入力から術中フィードバックの5つのカテゴリを分類するマルチラベル機械学習モデルを開発した。我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。術中フィードバックの自動分類は71.5から77.6までのaucsを達成し,融合性能は3.1%向上した。また,AUCを76.5から96.2に改良したフィードバック音声の高品質な手書き書き起こしが,今後の改善に向けた明確な道筋を示すことを示す。経験的に、まず各モードを個別に事前訓練し、その後共同でトレーニングするステージドトレーニング戦略は、異なるモダリティを完全にトレーニングするよりも効果的であることがわかった。また,異なるフィードバックカテゴリに対するモダリティの重要性に関する直感的な知見も提示する。本研究は,テキスト,音声,ビデオのモダリティに基づく実世界のライブフィードバックの自動分類の実現可能性について,第一に考察する。

関連論文リスト

Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-04-26T15:37:22Z)
EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-20T09:12:06Z)
Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文参考訳（メタデータ） (2024-12-01T10:35:12Z)
Multi-Modal Self-Supervised Learning for Surgical Feedback Effectiveness Assessment [66.6041949490137]
そこで本研究では,音声による音声入力とそれに対応する手術映像からの情報を統合して,フィードバックの有効性を予測する手法を提案する。以上の結果から,手書きフィードバックと手術映像の両方が,訓練者の行動変化を個別に予測できることがわかった。本研究は,手術フィードバックの自動評価を推進するためのマルチモーダル学習の可能性を示すものである。
論文参考訳（メタデータ） (2024-11-17T00:13:00Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
Surgment: Segmentation-enabled Semantic Search and Creation of Visual Question and Feedback to Support Video-Based Surgery Learning [4.509082876666929]
Surgmentは、専門家の外科医が手術記録に基づいたフィードバックで運動を作成するのを助けるシステムだ。セグメンテーションパイプラインは、外科医が望む視覚的な質問やフィードバックを作成することができる。 11名の外科医による評価研究において、被験者は関心のフレームを特定するための検索・バイ・スケッチ・アプローチを称賛し、結果として得られた画像に基づく質問やフィードバックは高い教育的価値を持つことがわかった。
論文参考訳（メタデータ） (2024-02-27T21:42:23Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Using Hand Pose Estimation To Automate Open Surgery Training Feedback [0.0]
本研究は,外科医の自動訓練における最先端のコンピュータビジョンアルゴリズムの利用を促進することを目的としている。 2次元手のポーズを推定することにより,手の動きをモデル化し,手術器具との相互作用をモデル化する。
論文参考訳（メタデータ） (2022-11-13T21:47:31Z)
Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文参考訳（メタデータ） (2022-05-06T06:08:35Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。