論文の概要: SAM Meets Robotic Surgery: An Empirical Study on Generalization,
Robustness and Adaptation
- arxiv url: http://arxiv.org/abs/2308.07156v1
- Date: Mon, 14 Aug 2023 14:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:08:52.386585
- Title: SAM Meets Robotic Surgery: An Empirical Study on Generalization,
Robustness and Adaptation
- Title(参考訳): SAMとロボット外科: 一般化、ロバスト性、適応に関する実証的研究
- Authors: An Wang, Mobarakol Islam, Mengya Xu, Yang Zhang, Hongliang Ren
- Abstract要約: Segment Anything Model (SAM) はセグメンテーションの基本モデルとして機能する。
ロボット外科領域におけるSAMの頑健性とゼロショットの一般化性について検討した。
- 参考スコア(独自算出の注目度): 15.995869434429274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) serves as a fundamental model for semantic
segmentation and demonstrates remarkable generalization capabilities across a
wide range of downstream scenarios. In this empirical study, we examine SAM's
robustness and zero-shot generalizability in the field of robotic surgery. We
comprehensively explore different scenarios, including prompted and unprompted
situations, bounding box and points-based prompt approaches, as well as the
ability to generalize under corruptions and perturbations at five severity
levels. Additionally, we compare the performance of SAM with state-of-the-art
supervised models. We conduct all the experiments with two well-known robotic
instrument segmentation datasets from MICCAI EndoVis 2017 and 2018 challenges.
Our extensive evaluation results reveal that although SAM shows remarkable
zero-shot generalization ability with bounding box prompts, it struggles to
segment the whole instrument with point-based prompts and unprompted settings.
Furthermore, our qualitative figures demonstrate that the model either failed
to predict certain parts of the instrument mask (e.g., jaws, wrist) or
predicted parts of the instrument as wrong classes in the scenario of
overlapping instruments within the same bounding box or with the point-based
prompt. In fact, SAM struggles to identify instruments in complex surgical
scenarios characterized by the presence of blood, reflection, blur, and shade.
Additionally, SAM is insufficiently robust to maintain high performance when
subjected to various forms of data corruption. We also attempt to fine-tune SAM
using Low-rank Adaptation (LoRA) and propose SurgicalSAM, which shows the
capability in class-wise mask prediction without prompt. Therefore, we can
argue that, without further domain-specific fine-tuning, SAM is not ready for
downstream surgical tasks.
- Abstract(参考訳): Segment Anything Model (SAM) はセマンティックセグメンテーションの基本モデルとして機能し、幅広い下流シナリオにまたがる顕著な一般化機能を示す。
本研究では,ロボット外科領域におけるSAMの堅牢性とゼロショットの一般化性について検討する。
我々は,障害や摂動を5つの重大度レベルで一般化する能力に加えて,刺激的および非刺激的な状況,境界ボックス,ポイントベースのプロンプトアプローチなど,さまざまなシナリオを包括的に検討する。
さらに,SAMの性能を最先端の教師付きモデルと比較した。
私たちは、MICCAI EndoVis 2017と2018の2つの有名なロボット機器セグメンテーションデータセットを用いて、すべての実験を行います。
広範な評価結果から,SAMはバウンディングボックスのプロンプトで顕著なゼロショット一般化能力を示すが,ポイントベースのプロンプトとアンプロンプトの設定で楽器全体をセグメント化することは困難であることがわかった。
さらに,このモデルでは,楽器マスクの特定の部分(顎,手首など)の予測に失敗したり,同じバウンディングボックス内やポイントベースのプロンプトで楽器が重なり合うようなシナリオにおいて,間違ったクラスとして楽器の部品を予測することができなかった。
実際SAMは、血液、反射、ぼやけ、陰といった複雑な手術シナリオにおける機器の特定に苦慮している。
さらにSAMは、さまざまな形式のデータ破壊を受けると、高いパフォーマンスを維持するには不十分である。
また,低ランク適応 (lora) を用いた sam の微調整を試み,手術用 sam を提案する。
したがって、さらにドメイン固有の微調整がなければ、SAMは下流の外科的タスクに準備ができていないと論じることができる。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum Imagery [15.748043194987075]
この研究は、X線/赤外線モダリティに関心のあるオブジェクトのセグメンテーションにおけるセグメンション・任意のモデル機能を評価する。
提案手法は,ボックスプロンプトが与えられた場合,SAMはオブジェクトをX線モードで分割できるが,その性能は点プロンプトによって異なる。
このモダリティの低コントラストの性質を考えると、赤外線オブジェクトもポイントプロンプトでセグメント化することが困難である。
論文 参考訳(メタデータ) (2024-04-18T16:04:14Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - On the Robustness of Segment Anything [46.669794757467166]
我々は, SAMの試験時間ロバスト性について, 敵のシナリオと共通の腐敗下で検討することを目的としている。
SAMは、ぼやけた汚職を除いて、様々な汚職に対して顕著な堅牢性を示す。
論文 参考訳(メタデータ) (2023-05-25T16:28:30Z) - SAM Meets Robotic Surgery: An Empirical Study in Robustness Perspective [21.2080716792596]
Segment Anything Model (SAM) は意味的セグメンテーションの基礎モデルである。
ロボット手術領域におけるSAMのロバスト性とゼロショット一般化性について検討した。
論文 参考訳(メタデータ) (2023-04-28T08:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。