論文の概要: Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings
- arxiv url: http://arxiv.org/abs/2503.19740v1
- Date: Tue, 25 Mar 2025 15:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:08.441138
- Title: Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings
- Title(参考訳): Surg-3M:外科手術における知覚のためのデータセットと基礎モデル
- Authors: Chengan Che, Chao Wang, Tom Vercauteren, Sophia Tsoka, Luis C. Garcia-Peraza-Herrera,
- Abstract要約: 本稿では,Surg-3Mをベースとした自己教師型基礎モデルであるSurgFMについて述べる。
Surg-3MとSurgFMはどちらも、自律的なロボット手術システムの開発を加速する大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 4.912213082028129
- License:
- Abstract: Advancements in computer-assisted surgical procedures heavily rely on accurate visual data interpretation from camera systems used during surgeries. Traditional open-access datasets focusing on surgical procedures are often limited by their small size, typically consisting of fewer than 100 videos with less than 100K images. To address these constraints, a new dataset called Surg-3M has been compiled using a novel aggregation pipeline that collects high-resolution videos from online sources. Featuring an extensive collection of over 4K surgical videos and more than 3 million high-quality images from multiple procedure types, Surg-3M offers a comprehensive resource surpassing existing alternatives in size and scope, including two novel tasks. To demonstrate the effectiveness of this dataset, we present SurgFM, a self-supervised foundation model pretrained on Surg-3M that achieves impressive results in downstream tasks such as surgical phase recognition, action recognition, and tool presence detection. Combining key components from ConvNeXt, DINO, and an innovative augmented distillation method, SurgFM exhibits exceptional performance compared to specialist architectures across various benchmarks. Our experimental results show that SurgFM outperforms state-of-the-art models in multiple downstream tasks, including significant gains in surgical phase recognition (+8.9pp, +4.7pp, and +3.9pp of Jaccard in AutoLaparo, M2CAI16, and Cholec80), action recognition (+3.1pp of mAP in CholecT50) and tool presence detection (+4.6pp of mAP in Cholec80). Moreover, even when using only half of the data, SurgFM outperforms state-of-the-art models in AutoLaparo and achieves state-of-the-art performance in Cholec80. Both Surg-3M and SurgFM have significant potential to accelerate progress towards developing autonomous robotic surgery systems.
- Abstract(参考訳): コンピュータ支援手術の進歩は、手術中に使用されるカメラシステムからの正確な視覚データ解釈に大きく依存している。
外科手術に焦点を当てた従来のオープンアクセスデータセットは、通常100K以下のビデオと100K以下の画像からなる、小さなサイズによって制限されることが多い。
これらの制約に対処するため、Surg-3Mと呼ばれる新しいデータセットが、オンラインソースから高解像度のビデオを収集する新しいアグリゲーションパイプラインを使用してコンパイルされた。
4K以上の手術ビデオと、複数のプロシージャタイプから300万以上の高品質な画像を収集したSurg-3Mは、2つの新しいタスクを含む既存の選択肢を超える包括的なリソースを提供する。
本データセットの有効性を示すために,Surg-3Mをベースとした自己教師型基礎モデルであるSurgFMを提案する。
ConvNeXt、DINO、および革新的な拡張蒸留法の主要なコンポーネントを組み合わせることで、SurgFMは様々なベンチマークの専門アーキテクチャと比較すると、例外的な性能を示す。
以上の結果から,SurgFMは,AutoLaparo,M2CAI16,Cholec80のJaccard(+8.9pp,+4.7pp,+3.9pp),行動認識(+3.1pp,CholecT50のmAP),ツール存在検出(+4.6pp,Cholec80のmAP)など,複数の下流タスクにおける最先端モデルよりも優れていた。
さらに、データの半分しか使用していない場合でも、SurgFMはAutoLaparoの最先端モデルより優れており、Colec80の最先端パフォーマンスを実現している。
Surg-3MとSurgFMはどちらも、自律的なロボット手術システムの開発を加速する大きな可能性を秘めている。
関連論文リスト
- Recognize Any Surgical Object: Unleashing the Power of Weakly-Supervised Data [15.00025814170182]
RASOは外科的対象を認識するために設計された基礎モデルである。
大規模な未発表の外科的講義ビデオからタグと画像のペアを自動生成する。
外科的行動認識タスクの最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-01-25T21:01:52Z) - EndoGSLAM: Real-Time Dense Reconstruction and Tracking in Endoscopic Surgeries using Gaussian Splatting [53.38166294158047]
EndoGSLAMは鏡視下手術の効率的なアプローチであり、合理化表現と微分ガウス化を統合している。
実験の結果,EndoGSLAMは従来型あるいは神経型SLAMアプローチよりも術中可用性と再建品質のトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:27:43Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Automatic Operating Room Surgical Activity Recognition for
Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。
400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。
ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文 参考訳(メタデータ) (2020-06-29T16:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。