論文の概要: Surgment: Segmentation-enabled Semantic Search and Creation of Visual
Question and Feedback to Support Video-Based Surgery Learning
- arxiv url: http://arxiv.org/abs/2402.17903v1
- Date: Tue, 27 Feb 2024 21:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:05:59.187119
- Title: Surgment: Segmentation-enabled Semantic Search and Creation of Visual
Question and Feedback to Support Video-Based Surgery Learning
- Title(参考訳): Surgment: セグメンテーション対応セマンティック検索と視覚質問作成とビデオベースの手術学習支援へのフィードバック
- Authors: Jingying Wang, Haoran Tang, Taylor Kantor, Tandis Soltani, Vitaliy
Popov and Xu Wang
- Abstract要約: Surgmentは、専門家の外科医が手術記録に基づいたフィードバックで運動を作成するのを助けるシステムだ。
セグメンテーションパイプラインは、外科医が望む視覚的な質問やフィードバックを作成することができる。
11名の外科医による評価研究において、被験者は関心のフレームを特定するための検索・バイ・スケッチ・アプローチを称賛し、結果として得られた画像に基づく質問やフィードバックは高い教育的価値を持つことがわかった。
- 参考スコア(独自算出の注目度): 4.509082876666929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Videos are prominent learning materials to prepare surgical trainees before
they enter the operating room (OR). In this work, we explore techniques to
enrich the video-based surgery learning experience. We propose Surgment, a
system that helps expert surgeons create exercises with feedback based on
surgery recordings. Surgment is powered by a few-shot-learning-based pipeline
(SegGPT+SAM) to segment surgery scenes, achieving an accuracy of 92\%. The
segmentation pipeline enables functionalities to create visual questions and
feedback desired by surgeons from a formative study. Surgment enables surgeons
to 1) retrieve frames of interest through sketches, and 2) design exercises
that target specific anatomical components and offer visual feedback. In an
evaluation study with 11 surgeons, participants applauded the search-by-sketch
approach for identifying frames of interest and found the resulting image-based
questions and feedback to be of high educational value.
- Abstract(参考訳): ビデオは手術室(OR)に入る前に手術訓練生を準備するための顕著な学習材料である。
本研究では,ビデオベースの手術学習体験を充実させる技術を探究する。
Surgmentは、外科医が手術記録に基づいたフィードバックで演習を作成するのを支援するシステムである。
Surgmentは、数ショットの学習ベースのパイプライン(SegGPT+SAM)を使用して、手術シーンを分割し、精度92\%を達成する。
セグメンテーションパイプラインは、フォーマティブな研究から外科医が望む視覚的な質問やフィードバックを作成することができる。
サージメントは外科医が
1)スケッチを通して興味のあるフレームを取得し、
2)特定の解剖学的コンポーネントをターゲットにした視覚的フィードバックを提供する設計演習。
11名の外科医による評価研究において、被験者は関心のフレームを特定するための検索・バイ・スケッチ・アプローチを称賛し、画像に基づく質問とフィードバックは高い教育的価値を持つことがわかった。
関連論文リスト
- Anatomy Might Be All You Need: Forecasting What to Do During Surgery [41.91807060434709]
内視鏡などのツールからビデオフィードを分析することで,ライブガイダンスの提供への関心が高まっている。
本研究の目的は, 手術器具の軌跡を予測し, より精密な指導を行うことである。
論文 参考訳(メタデータ) (2025-01-29T21:54:31Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文 参考訳(メタデータ) (2024-12-01T10:35:12Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-13T14:47:57Z) - Deep Multimodal Fusion for Surgical Feedback Classification [70.53297887843802]
外科的フィードバックの5カテゴリー分類を臨床的に検証した。
次に,テキスト,音声,ビデオモダリティの入力から,これらの5つのカテゴリの外科的フィードバックを分類するために,多ラベル機械学習モデルを開発した。
我々の研究の最終的な目標は、リアルタイムな文脈的外科的フィードバックのアノテーションを大規模に自動化することである。
論文 参考訳(メタデータ) (2023-12-06T01:59:47Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Using Hand Pose Estimation To Automate Open Surgery Training Feedback [0.0]
本研究は,外科医の自動訓練における最先端のコンピュータビジョンアルゴリズムの利用を促進することを目的としている。
2次元手のポーズを推定することにより,手の動きをモデル化し,手術器具との相互作用をモデル化する。
論文 参考訳(メタデータ) (2022-11-13T21:47:31Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - ESAD: Endoscopic Surgeon Action Detection Dataset [10.531648619593572]
本研究の目的は,外科医の動作を意識させることで,手術支援ロボットをより安全にすることである。
実世界の内視鏡的ビデオにおいて,外科的行動検出のための挑戦的なデータセットを導入する。
論文 参考訳(メタデータ) (2020-06-12T13:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。