論文の概要: Surgical Scene Understanding in the Era of Foundation AI Models: A Comprehensive Review
- arxiv url: http://arxiv.org/abs/2502.14886v1
- Date: Sun, 16 Feb 2025 07:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:51:33.395477
- Title: Surgical Scene Understanding in the Era of Foundation AI Models: A Comprehensive Review
- Title(参考訳): ファンデーションAIモデルにおける外科的シーン理解 : 総合的レビュー
- Authors: Ufaq Khan, Umair Nawaz, Adnan Qayyum, Shazad Ashraf, Muhammad Bilal, Junaid Qadir,
- Abstract要約: 機械学習(ML)とディープラーニング(DL)の最近の進歩は、最小侵襲手術(MIS)における外科的シーン理解を著しく強化している。
本稿では、CNN、ビジョントランスフォーマー(ViT)、Segment Anything Model(SAM)のような基礎モデルなど、最先端のMLおよびDL技術の統合について調査する。
本稿では,これらの技術が直面する課題,例えばデータの変動性や計算要求について考察し,臨床環境における倫理的考察と統合のハードルについて考察する。
- 参考スコア(独自算出の注目度): 3.552525722519539
- License:
- Abstract: Recent advancements in machine learning (ML) and deep learning (DL), particularly through the introduction of foundational models (FMs), have significantly enhanced surgical scene understanding within minimally invasive surgery (MIS). This paper surveys the integration of state-of-the-art ML and DL technologies, including Convolutional Neural Networks (CNNs), Vision Transformers (ViTs), and foundational models like the Segment Anything Model (SAM), into surgical workflows. These technologies improve segmentation accuracy, instrument tracking, and phase recognition in surgical endoscopic video analysis. The paper explores the challenges these technologies face, such as data variability and computational demands, and discusses ethical considerations and integration hurdles in clinical settings. Highlighting the roles of FMs, we bridge the technological capabilities with clinical needs and outline future research directions to enhance the adaptability, efficiency, and ethical alignment of AI applications in surgery. Our findings suggest that substantial progress has been made; however, more focused efforts are required to achieve seamless integration of these technologies into clinical workflows, ensuring they complement surgical practice by enhancing precision, reducing risks, and optimizing patient outcomes.
- Abstract(参考訳): 近年の機械学習 (ML) とディープラーニング (DL) の進歩、特に基礎モデル (FM) の導入により、最小侵襲手術 (MIS) における外科的シーン理解が著しく向上した。
本稿では、畳み込みニューラルネットワーク(CNN)、視覚変換器(ViT)、Segment Anything Model(SAM)のような基礎モデルなど、最先端のMLおよびDL技術の外科的ワークフローへの統合について調査する。
これらの技術は、外科的内視鏡的ビデオ解析におけるセグメンテーション精度、計器追跡、位相認識を改善する。
本稿では,これらの技術が直面する課題,例えばデータの変動性や計算要求について考察し,臨床環境における倫理的考察と統合のハードルについて考察する。
手術におけるAI応用の適応性, 効率, 倫理的整合性を高めるために, FMの役割を高く評価し, 臨床ニーズによる技術的能力の橋渡しを行い, 今後の研究の方向性を概説する。
臨床ワークフローへのシームレスな統合を実現するためには, 精度の向上, リスクの低減, 患者結果の最適化などにより, 外科的実践を補完する努力が必要であることが示唆された。
関連論文リスト
- Scalable Evaluation Framework for Foundation Models in Musculoskeletal MRI Bridging Computational Innovation with Clinical Utility [0.0]
本研究は,SAM,MedSAM,SAM2の臨床的影響と翻訳性を評価するための評価枠組みを提案する。
これらのモデルをゼロショットおよび微調整のパラダイムでテストし、多様な解剖学的構造を処理し、臨床的に信頼性の高いバイオマーカーを有効活用する能力を評価した。
論文 参考訳(メタデータ) (2025-01-23T04:41:20Z) - Deep Learning for Ophthalmology: The State-of-the-Art and Future Trends [7.893548922956548]
人工知能(AI)の出現は眼科領域において新たな時代を迎えている。
本総説では, 深層学習(DL)の様々な眼環境における最先端の応用について検討する。
論文 参考訳(メタデータ) (2025-01-07T18:53:14Z) - Deep Learning for Surgical Instrument Recognition and Segmentation in Robotic-Assisted Surgeries: A Systematic Review [0.24342814271497581]
ロボットによる最小侵襲手術における手術器具のアノテートのための深層学習(DL)の適用は,手術技術の大幅な進歩を示している。
これらの高度なDLモデルは、手術器具の検出と分節の精度と効率を顕著に改善した。
外科教育におけるDLの応用は変革的である。
論文 参考訳(メタデータ) (2024-10-09T04:07:38Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Prediction of Post-Operative Renal and Pulmonary Complications Using
Transformers [69.81176740997175]
術後急性腎不全,肺合併症,院内死亡の予測におけるトランスフォーマーモデルの有用性について検討した。
以上の結果から,トランスフォーマーモデルにより術後合併症の予測や従来の機械学習モデルよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-01T14:08:05Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Generational Frameshifts in Technology: Computer Science and
Neurosurgery, The VR Use Case [0.0]
神経外科の民主化は、現在進行中であり、現代の世界のこれらのツールの開発、抽出、導入によって推進されます。
手術の詳細を把握し,手術の各部位を解析しながら,より安全かつ効率的に手術を行う能力は,当科の領域とすべての外科専門分野に全く新しい画期的な展開をもたらす。
論文 参考訳(メタデータ) (2021-10-08T20:02:17Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Surgical Visual Domain Adaptation: Results from the MICCAI 2020
SurgVisDom Challenge [9.986124942784969]
この研究は、データプライバシの懸念を克服するために、手術における視覚領域適応の可能性を探究する。
特に,外科手術のバーチャルリアリティ(VR)シミュレーションのビデオを用いて,臨床ライクな環境下でのタスク認識アルゴリズムの開発を提案する。
課題参加者によって開発された視覚的ドメイン適応を解決するためのさまざまなアプローチのパフォーマンスを紹介します。
論文 参考訳(メタデータ) (2021-02-26T18:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。