論文の概要: Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities
- arxiv url: http://arxiv.org/abs/2504.18954v1
- Date: Sat, 26 Apr 2025 15:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.062326
- Title: Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities
- Title(参考訳): 外科医対コンピュータビジョン:外科的位相認識能力の比較分析
- Authors: Marco Mezzina, Pieter De Backer, Tom Vercauteren, Matthew Blaschko, Alexandre Mottrie, Tinne Tuytelaars,
- Abstract要約: 自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
- 参考スコア(独自算出の注目度): 65.66373425605278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Automated Surgical Phase Recognition (SPR) uses Artificial Intelligence (AI) to segment the surgical workflow into its key events, functioning as a building block for efficient video review, surgical education as well as skill assessment. Previous research has focused on short and linear surgical procedures and has not explored if temporal context influences experts' ability to better classify surgical phases. This research addresses these gaps, focusing on Robot-Assisted Partial Nephrectomy (RAPN) as a highly non-linear procedure. Methods: Urologists of varying expertise were grouped and tasked to indicate the surgical phase for RAPN on both single frames and video snippets using a custom-made web platform. Participants reported their confidence levels and the visual landmarks used in their decision-making. AI architectures without and with temporal context as trained and benchmarked on the Cholec80 dataset were subsequently trained on this RAPN dataset. Results: Video snippets and presence of specific visual landmarks improved phase classification accuracy across all groups. Surgeons displayed high confidence in their classifications and outperformed novices, who struggled discriminating phases. The performance of the AI models is comparable to the surgeons in the survey, with improvements when temporal context was incorporated in both cases. Conclusion: SPR is an inherently complex task for expert surgeons and computer vision, where both perform equally well when given the same context. Performance increases when temporal information is provided. Surgical tools and organs form the key landmarks for human interpretation and are expected to shape the future of automated SPR.
- Abstract(参考訳): 目的: 自動手術相認識(SPR)は, 人工知能(AI)を用いて, 外科的ワークフローを重要なイベントに分割し, 効率的なビデオレビュー, 外科的教育, 技能評価のためのビルディングブロックとして機能する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探求していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
方法: カスタムメイドウェブプラットフォームを用いて, 単一フレームおよびビデオスニペット上でのRAPNの外科的段階を示すために, 様々な専門知識を持つ耳科医をグループ化し, 課題を課した。
参加者は信頼度と意思決定に使用される視覚的ランドマークを報告した。
Cholec80データセットでトレーニングされ、ベンチマークされた時間的コンテキストのないAIアーキテクチャは、その後、このRAPNデータセットでトレーニングされた。
結果: ビデオスニペットと特定の視覚的ランドマークの存在により, 全グループ間の位相分類精度が向上した。
外科医は彼らの分類に高い自信を示し、差別的な段階に苦しむ初心者よりも優れていた。
AIモデルのパフォーマンスは、両方のケースに時間的コンテキストが組み込まれた場合の改善とともに、調査の外科医に匹敵する。
結論: SPRは、専門家の外科医とコンピュータビジョンにとって本質的に複雑なタスクであり、どちらも同じ文脈で同等に機能する。
時間情報の提供によってパフォーマンスが向上する。
外科的ツールや臓器は人間の解釈の鍵となるランドマークを形成し、自動化されたSPRの未来を形成することが期待されている。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Peri-AIIMS: Perioperative Artificial Intelligence Driven Integrated Modeling of Surgeries using Anesthetic, Physical and Cognitive Statuses for Predicting Hospital Outcomes [12.493423568689801]
クロックドローイングテストで測定された術前認知状態は, 入院期間, 入院料, 術後平均痛の予測に寄与した。
機械学習モデルは、ホールドアウトテストセットで術後の結果を分類するために訓練された。
論文 参考訳(メタデータ) (2024-10-29T23:42:51Z) - Automated Surgical Skill Assessment in Endoscopic Pituitary Surgery using Real-time Instrument Tracking on a High-fidelity Bench-top Phantom [9.41936397281689]
外科的スキルの改善は一般的に患者の成績の改善に関連しているが、評価は主観的であり、労働集約的である。
内視鏡下垂体手術の鼻相を模範として,シミュレートされた手術に焦点を当てた新しい公開データセットが導入された。
多層パーセプトロンは87%の精度で手術技量(初心者または専門家)を予測し、「可視時間測定のための全手術時間の割合」は高度な手術技量と相関した。
論文 参考訳(メタデータ) (2024-09-25T15:27:44Z) - Phase-Specific Augmented Reality Guidance for Microscopic Cataract
Surgery Using Long-Short Spatiotemporal Aggregation Transformer [14.568834378003707]
乳化白内障手術(英: Phaemulsification cataract surgery, PCS)は、外科顕微鏡を用いた外科手術である。
PCS誘導システムは、手術用顕微鏡映像から貴重な情報を抽出し、熟練度を高める。
既存のPCSガイダンスシステムでは、位相特異なガイダンスに悩まされ、冗長な視覚情報に繋がる。
本稿では,認識された手術段階に対応するAR情報を提供する,新しい位相特異的拡張現実(AR)誘導システムを提案する。
論文 参考訳(メタデータ) (2023-09-11T02:56:56Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition [1.5237530964650965]
注意力をより効果的に利用し,手作り制約を必要としない新しいアプローチを提案する。
TuNeSは、畳み込みU-Net構造のコアに自己アテンションを組み込んだ、効率的でシンプルな時間モデルである。
TuNeSはColec80データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-19T14:10:55Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Automatic Gesture Recognition in Robot-assisted Surgery with
Reinforcement Learning and Tree Search [63.07088785532908]
共同手術におけるジェスチャー分割と分類のための強化学習と木探索に基づく枠組みを提案する。
我々のフレームワークは,JIGSAWSデータセットのサチューリングタスクにおいて,精度,編集スコア,F1スコアの点で,既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-02-20T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。