論文の概要: Is Segment Anything Model 2 All You Need for Surgery Video Segmentation? A Systematic Evaluation
- arxiv url: http://arxiv.org/abs/2501.00525v1
- Date: Tue, 31 Dec 2024 16:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:30.936745
- Title: Is Segment Anything Model 2 All You Need for Surgery Video Segmentation? A Systematic Evaluation
- Title(参考訳): 手術用ビデオセグメンテーションに必要なセグメンテーションモデル2について : システム評価
- Authors: Cheng Yuan, Jian Jiang, Kunyi Yang, Lv Wu, Rui Wang, Zi Meng, Haonan Ping, Ziyu Xu, Yifan Zhou, Wanli Song, Hesheng Wang, Qi Dou, Yutong Ban,
- Abstract要約: 本稿では,ゼロショット手術映像分割作業におけるSAM2モデルの性能を体系的に評価する。
我々は、異なるプロンプト戦略やロバスト性など、異なる構成で実験を行った。
- 参考スコア(独自算出の注目度): 25.459372606957736
- License:
- Abstract: Surgery video segmentation is an important topic in the surgical AI field. It allows the AI model to understand the spatial information of a surgical scene. Meanwhile, due to the lack of annotated surgical data, surgery segmentation models suffer from limited performance. With the emergence of SAM2 model, a large foundation model for video segmentation trained on natural videos, zero-shot surgical video segmentation became more realistic but meanwhile remains to be explored. In this paper, we systematically evaluate the performance of SAM2 model in zero-shot surgery video segmentation task. We conducted experiments under different configurations, including different prompting strategies, robustness, etc. Moreover, we conducted an empirical evaluation over the performance, including 9 datasets with 17 different types of surgeries.
- Abstract(参考訳): 手術用ビデオセグメンテーションは、外科用AI分野において重要なトピックである。
これにより、AIモデルは手術シーンの空間的情報を理解することができる。
一方、注釈付き手術データがないため、手術セグメンテーションモデルは限られた性能に悩まされる。
自然ビデオで訓練されたビデオセグメンテーションのための大規模な基盤モデルSAM2モデルの出現に伴い、ゼロショット手術ビデオセグメンテーションはより現実的なものとなったが、まだ探索が続けられている。
本稿では,ゼロショット手術映像分割作業におけるSAM2モデルの性能を体系的に評価する。
我々は、異なるプロンプト戦略やロバスト性など、異なる構成で実験を行った。
さらに,17種類の手術を行った9つのデータセットを含む,パフォーマンスに関する経験的評価を行った。
関連論文リスト
- Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning [13.90996725220123]
本稿では,SurgSAM-2 (SurgSAM-2) を用いた手術用SAM2 (SurgSAM-2) について紹介する。
SurgSAM-2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上させる。
注目すべきは、SurgSAM-2はSAM2と比較して3$times$ FPSを達成すると同時に、低解像度データによる微調整後の最先端のパフォーマンスも提供することだ。
論文 参考訳(メタデータ) (2024-08-15T04:59:12Z) - Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2 [4.418542191434178]
Segment Anything Model 2 (SAM2)は、画像とビデオのセグメンテーションのための最新の基礎モデルである。
内視鏡検査や顕微鏡検査など,異なるタイプの手術におけるSAM2モデルのゼロショット映像分割性能について検討した。
1) SAM2は, 各種手術ビデオのセグメンテーション能力を示す。2) 新たなツールが現場に入ると, セグメンテーションの精度を維持するために追加のプロンプトが必要であり, 3) 手術ビデオに固有の課題はSAM2のロバスト性に影響を与える。
論文 参考訳(メタデータ) (2024-08-03T03:19:56Z) - Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-13T14:47:57Z) - OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [26.962250661485967]
OphNetは、眼科の外科的ワークフロー理解のための、大規模な、専門家による注釈付きビデオベンチマークである。
66種類の白内障、緑内障、角膜手術にまたがる2,278本の外科的ビデオの多彩なコレクションがあり、102個のユニークな外科的フェーズと150個の微細な手術の詳細な注記がある。
OphNetは、既存の最大の外科的ワークフロー分析ベンチマークの約20倍の大きさである。
論文 参考訳(メタデータ) (2024-06-11T17:18:11Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Co-Generation and Segmentation for Generalized Surgical Instrument
Segmentation on Unlabelled Data [49.419268399590045]
正確な機器追跡と拡張現実オーバーレイには、ロボット支援手術のための外科用機器セグメンテーションが必要です。
深層学習法では手術器具のセグメンテーションに最先端のパフォーマンスが示されたが,結果はラベル付きデータに依存する。
本稿では,ロボットによる手術を含むさまざまなデータセット上で,これらの手法の限定的な一般化性を実証する。
論文 参考訳(メタデータ) (2021-03-16T18:41:18Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。