Fugu-MT 論文翻訳(概要): Thoracic Surgery Video Analysis for Surgical Phase Recognition

論文の概要: Thoracic Surgery Video Analysis for Surgical Phase Recognition

arxiv url: http://arxiv.org/abs/2406.09185v1
Date: Thu, 13 Jun 2024 14:47:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 17:14:49.396486
Title: Thoracic Surgery Video Analysis for Surgical Phase Recognition
Title（参考訳）: 外科的位相認識のための胸部手術映像解析
Authors: Syed Abdul Mateen, Niharika Malvia, Syed Abdul Khader, Danny Wang, Deepti Srinivasan, Chi-Fu Jeffrey Yang, Lana Schumacher, Sandeep Manjanna,
Abstract要約: 我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
参考スコア（独自算出の注目度）: 0.08706730566331035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an approach for surgical phase recognition using video data, aiming to provide a comprehensive understanding of surgical procedures for automated workflow analysis. The advent of robotic surgery, digitized operating rooms, and the generation of vast amounts of data have opened doors for the application of machine learning and computer vision in the analysis of surgical videos. Among these advancements, Surgical Phase Recognition(SPR) stands out as an emerging technology that has the potential to recognize and assess the ongoing surgical scenario, summarize the surgery, evaluate surgical skills, offer surgical decision support, and facilitate medical training. In this paper, we analyse and evaluate both frame-based and video clipping-based phase recognition on thoracic surgery dataset consisting of 11 classes of phases. Specifically, we utilize ImageNet ViT for image-based classification and VideoMAE as the baseline model for video-based classification. We show that Masked Video Distillation(MVD) exhibits superior performance, achieving a top-1 accuracy of 72.9%, compared to 52.31% achieved by ImageNet ViT. These findings underscore the efficacy of video-based classifiers over their image-based counterparts in surgical phase recognition tasks.
Abstract（参考訳）: 本稿では,自動ワークフロー解析のための手術手順を包括的に理解することを目的とした,ビデオデータを用いた外科的位相認識のためのアプローチを提案する。ロボット手術の出現、デジタル化された手術室、膨大な量のデータの生成は、手術ビデオの分析に機械学習とコンピュータビジョンを応用するための扉を開いた。これらの進歩の中で、外科的位相認識(SPR)は、進行中の外科的シナリオを認識して評価し、手術を要約し、外科的スキルを評価し、外科的決定支援を提供し、医療訓練を促進する新しい技術として注目されている。本稿では,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識を解析・評価する。具体的には、画像ベース分類に ImageNet ViT を使用し、ビデオベース分類のベースラインモデルとして VideoMAE を用いる。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。これらの知見は,画像に基づく分類器の手術相認識タスクに対する効果を裏付けるものである。

関連論文リスト

ReSW-VL: Representation Learning for Surgical Workflow Analysis Using Vision-Language Model [0.07143413923310668]
ビデオからの外科的位相認識は、外科手術の進行を自動的に分類する技術である。外科的位相認識技術の最近の進歩は、主にトランスフォーメーションに基づく手法に焦点を当てている。視覚言語モデルを用いた外科的ワークフロー解析における表現学習法を提案する。
論文参考訳（メタデータ） (2025-05-19T21:44:37Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文参考訳（メタデータ） (2025-04-28T15:46:02Z)
Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-04-26T15:37:22Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos [7.446152826866544]
EgoSurgery-Phaseという位相認識のための新しいエゴセントリックオープン手術ビデオデータセットを導入する。このデータセットは、9つの異なる手術フェーズにまたがる15時間の実際の手術ビデオで構成されている。動画の他に、EgoSurgery-Phaseは視線を提供しています。私たちが知る限り、これは外科的位相認識のための、最初のオープンな手術ビデオデータセットです。
論文参考訳（メタデータ） (2024-05-30T02:53:19Z)
Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。 5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文参考訳（メタデータ） (2024-03-25T13:09:40Z)
Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。データセットとアノテーションは、論文の受理時に公開される。
論文参考訳（メタデータ） (2023-12-11T10:53:05Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文参考訳（メタデータ） (2023-05-05T13:42:19Z)
Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文参考訳（メタデータ） (2022-07-20T05:42:19Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)
Know your sensORs $\unicode{x2013}$ A Modality Study For Surgical Action Classification [39.546197658791]
医療コミュニティは、この豊富なデータを活用して、介入ケアを推進し、コストを下げ、患者の成果を改善する自動化手法を開発しようとしている。既存のORルームカメラのデータセットは、これまではサイズやモダリティが限られていたため、ビデオから外科的アクションを認識するなどのタスクに、どのセンサーのモダリティが最適かは明らかになっていない。本研究は, 画像のモダリティによって, 手術時の動作認識性能が変化することを示す。
論文参考訳（メタデータ） (2022-03-16T15:01:17Z)
Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文参考訳（メタデータ） (2021-06-09T14:35:44Z)
Automatic Operating Room Surgical Activity Recognition for Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。 400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文参考訳（メタデータ） (2020-06-29T16:30:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。