論文の概要: Thoracic Surgery Video Analysis for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2406.09185v1
- Date: Thu, 13 Jun 2024 14:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:14:49.396486
- Title: Thoracic Surgery Video Analysis for Surgical Phase Recognition
- Title(参考訳): 外科的位相認識のための胸部手術映像解析
- Authors: Syed Abdul Mateen, Niharika Malvia, Syed Abdul Khader, Danny Wang, Deepti Srinivasan, Chi-Fu Jeffrey Yang, Lana Schumacher, Sandeep Manjanna,
- Abstract要約: 我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.08706730566331035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach for surgical phase recognition using video data, aiming to provide a comprehensive understanding of surgical procedures for automated workflow analysis. The advent of robotic surgery, digitized operating rooms, and the generation of vast amounts of data have opened doors for the application of machine learning and computer vision in the analysis of surgical videos. Among these advancements, Surgical Phase Recognition(SPR) stands out as an emerging technology that has the potential to recognize and assess the ongoing surgical scenario, summarize the surgery, evaluate surgical skills, offer surgical decision support, and facilitate medical training. In this paper, we analyse and evaluate both frame-based and video clipping-based phase recognition on thoracic surgery dataset consisting of 11 classes of phases. Specifically, we utilize ImageNet ViT for image-based classification and VideoMAE as the baseline model for video-based classification. We show that Masked Video Distillation(MVD) exhibits superior performance, achieving a top-1 accuracy of 72.9%, compared to 52.31% achieved by ImageNet ViT. These findings underscore the efficacy of video-based classifiers over their image-based counterparts in surgical phase recognition tasks.
- Abstract(参考訳): 本稿では,自動ワークフロー解析のための手術手順を包括的に理解することを目的とした,ビデオデータを用いた外科的位相認識のためのアプローチを提案する。
ロボット手術の出現、デジタル化された手術室、膨大な量のデータの生成は、手術ビデオの分析に機械学習とコンピュータビジョンを応用するための扉を開いた。
これらの進歩の中で、外科的位相認識(SPR)は、進行中の外科的シナリオを認識して評価し、手術を要約し、外科的スキルを評価し、外科的決定支援を提供し、医療訓練を促進する新しい技術として注目されている。
本稿では,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識を解析・評価する。
具体的には、画像ベース分類に ImageNet ViT を使用し、ビデオベース分類のベースラインモデルとして VideoMAE を用いる。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
これらの知見は,画像に基づく分類器の手術相認識タスクに対する効果を裏付けるものである。
関連論文リスト
- EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos [7.446152826866544]
EgoSurgery-Phaseという位相認識のための新しいエゴセントリックオープン手術ビデオデータセットを導入する。
このデータセットは、9つの異なる手術フェーズにまたがる15時間の実際の手術ビデオで構成されている。
動画の他に、EgoSurgery-Phaseは視線を提供しています。私たちが知る限り、これは外科的位相認識のための、最初のオープンな手術ビデオデータセットです。
論文 参考訳(メタデータ) (2024-05-30T02:53:19Z) - Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。
脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。
5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文 参考訳(メタデータ) (2024-03-25T13:09:40Z) - Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase
Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。
我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。
データセットとアノテーションは、論文の受理時に公開される。
論文 参考訳(メタデータ) (2023-12-11T10:53:05Z) - Navigating the Synthetic Realm: Harnessing Diffusion-based Models for
Laparoscopic Text-to-Image Generation [3.2039076408339353]
拡散型生成モデルを用いて短いテキストプロンプトから合成腹腔鏡画像を生成するための直感的なアプローチを提案する。
画像ガイド下手術の分野では,拡散モデルがスタイルやセマンティクスの知識を得ることができた。
論文 参考訳(メタデータ) (2023-12-05T16:20:22Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Know your sensORs $\unicode{x2013}$ A Modality Study For Surgical Action
Classification [39.546197658791]
医療コミュニティは、この豊富なデータを活用して、介入ケアを推進し、コストを下げ、患者の成果を改善する自動化手法を開発しようとしている。
既存のORルームカメラのデータセットは、これまではサイズやモダリティが限られていたため、ビデオから外科的アクションを認識するなどのタスクに、どのセンサーのモダリティが最適かは明らかになっていない。
本研究は, 画像のモダリティによって, 手術時の動作認識性能が変化することを示す。
論文 参考訳(メタデータ) (2022-03-16T15:01:17Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Automatic Operating Room Surgical Activity Recognition for
Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。
400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。
ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文 参考訳(メタデータ) (2020-06-29T16:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。