論文の概要: SurgiSAM2: Fine-tuning a foundational model for surgical video anatomy segmentation and detection
- arxiv url: http://arxiv.org/abs/2503.03942v1
- Date: Wed, 05 Mar 2025 22:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:47.836900
- Title: SurgiSAM2: Fine-tuning a foundational model for surgical video anatomy segmentation and detection
- Title(参考訳): SurgiSAM2: 外科的ビデオ解剖分類と検出のための基礎モデル
- Authors: Devanish N. Kamtam, Joseph B. Shrager, Satya Deepya Malla, Xiaohan Wang, Nicole Lin, Juan J. Cardona, Serena Yeung-Levy, Clarence Hu,
- Abstract要約: 手術シーン理解のためのSAM 2の評価には,臓器・組織の意味的セグメンテーション機能について検討した。
微調整されたSAM 2モデルであるSurgiSAM 2はセグメンテーション性能を大幅に改善した。
- 参考スコア(独自算出の注目度): 14.469704692948435
- License:
- Abstract: Background: We evaluate SAM 2 for surgical scene understanding by examining its semantic segmentation capabilities for organs/tissues both in zero-shot scenarios and after fine-tuning. Methods: We utilized five public datasets to evaluate and fine-tune SAM 2 for segmenting anatomical tissues in surgical videos/images. Fine-tuning was applied to the image encoder and mask decoder. We limited training subsets from 50 to 400 samples per class to better model real-world constraints with data acquisition. The impact of dataset size on fine-tuning performance was evaluated with weighted mean Dice coefficient (WMDC), and the results were also compared against previously reported state-of-the-art (SOTA) results. Results: SurgiSAM 2, a fine-tuned SAM 2 model, demonstrated significant improvements in segmentation performance, achieving a 17.9% relative WMDC gain compared to the baseline SAM 2. Increasing prompt points from 1 to 10 and training data scale from 50/class to 400/class enhanced performance; the best WMDC of 0.92 on the validation subset was achieved with 10 prompt points and 400 samples per class. On the test subset, this model outperformed prior SOTA methods in 24/30 (80%) of the classes with a WMDC of 0.91 using 10-point prompts. Notably, SurgiSAM 2 generalized effectively to unseen organ classes, achieving SOTA on 7/9 (77.8%) of them. Conclusion: SAM 2 achieves remarkable zero-shot and fine-tuned performance for surgical scene segmentation, surpassing prior SOTA models across several organ classes of diverse datasets. This suggests immense potential for enabling automated/semi-automated annotation pipelines, thereby decreasing the burden of annotations facilitating several surgical applications.
- Abstract(参考訳): 背景: 外科的シーン理解のためのSAM 2の評価は, ゼロショットシナリオと微調整後の両方において, 臓器のセグメンテーション機能について検討した。
方法: 外科用ビデオ・画像の解剖組織分画において, 5つの公開データセットを用いてSAM 2の評価と微調整を行った。
画像エンコーダとマスクデコーダにファインチューニングを適用した。
データ取得による実世界の制約をモデル化するために、トレーニングサブセットをクラス毎に50から400のサンプルに制限しました。
データセットサイズが微調整性能に及ぼす影響を重み付き平均Dice係数 (WMDC) を用いて評価し, 従来報告したSOTA結果と比較した。
結果: 微調整SAM2モデルであるSurgiSAM 2はセグメンテーション性能を著しく向上させ, ベースラインSAM 2と比較して17.9%のWMDC向上を実現した。
1から10までのプロンプトポイントの増加、50/クラスから400/クラスへのトレーニングデータスケールの強化、検証サブセットで0.92のWMDCが10のプロンプトポイントと400のサンプルで達成された。
テストサブセットでは、このモデルは10ポイントプロンプトを使用して、WMDCが0.91のクラスで24/30(80%)のSOTAメソッドよりも優れていた。
特に、SurgiSAM 2は、その7/9(77.8%)でSOTAを達成し、目に見えない臓器クラスに効果的に一般化した。
結論:SAM 2は手術シーンのセグメンテーションにおいて顕著なゼロショットおよび微調整性能を達成し,多様なデータセットのオルガンクラスにまたがる以前のSOTAモデルを上回った。
これは、自動/半自動アノテーションパイプラインを有効にする大きな可能性を示唆している。
関連論文リスト
- Improving the U-Net Configuration for Automated Delineation of Head and Neck Cancer on MRI [0.0]
MRIにおける腫瘍体積のセグメンテーションは困難で時間を要するプロセスである。
本研究は,頭部および頸部腫瘍のMRI画像における自動デライン化へのアプローチを示す。
本研究の目的は,医学的セグメンテーションタスクで一般的に使用される構成の改善を提案することである。
論文 参考訳(メタデータ) (2025-01-09T10:22:35Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - TotalSegmentator MRI: Robust Sequence-independent Segmentation of Multiple Anatomic Structures in MRI [59.86827659781022]
nnU-Netモデル(TotalSegmentator)をMRIおよび80原子構造で訓練した。
予測されたセグメンテーションと専門家基準セグメンテーションとの間には,ディススコアが算出され,モデル性能が評価された。
オープンソースで使いやすいモデルは、80構造の自動的で堅牢なセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - nnSAM: Plug-and-play Segment Anything Model Improves nnUNet Performance [12.169801149021566]
Segment Anything Model (SAM)は、特定のドメイントレーニングなしで画像セグメンテーションのための汎用ツールとして登場した。
nnUNetのような従来のモデルは推論中に自動セグメンテーションを実行するが、広範なドメイン固有のトレーニングが必要である。
提案するnnSAMは,SAMの頑健な特徴抽出とnnUNetの自動構成を統合し,小さなデータセットのセグメンテーション精度を向上させる。
論文 参考訳(メタデータ) (2023-09-29T04:26:25Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - MAPPING: Model Average with Post-processing for Stroke Lesion
Segmentation [57.336056469276585]
我々は nnU-Net フレームワークに基づく脳卒中病変のセグメンテーションモデルを提案し, ストローク後の解剖学的トレースに応用する。
本手法は,2022年のMICCAI ATLAS Challengeにおいて,平均Diceスコアが0.6667,Lesion-wise F1スコアが0.5643,Simple Lesion Countスコアが4.5367,Volume differenceスコアが8804.9102であった。
論文 参考訳(メタデータ) (2022-11-11T14:17:04Z) - Treatment classification of posterior capsular opacification (PCO) using
automated ground truths [0.0]
本稿では,PCO画像をまず分類し,必要なテキスト処理と不要なテキスト処理に分類する,深層学習(DL)に基づく手法を提案する。
モデルのトレーニングには, (i) マニュアルと (ii) 自動の2つの戦略から得られるグラウンド・真実(GT)をセットしたトレーニング画像を作成する。
論文 参考訳(メタデータ) (2022-11-11T10:36:42Z) - Towards Fully Automated Segmentation of Rat Cardiac MRI by Leveraging
Deep Learning Frameworks [1.6020567943077142]
我々は,標準的なU-Netアーキテクチャ上に拡張されたセグメンテーションモデルを開発し,シストール相とダイアストル相の別々のモデルを評価する。
ガウス過程を1MSAに適用することで、シストールとジアストールの選択を自動化できる。
論文 参考訳(メタデータ) (2021-09-09T11:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。