論文の概要: SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation
- arxiv url: http://arxiv.org/abs/2312.14481v2
- Date: Sat, 23 Mar 2024 03:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:05:37.770584
- Title: SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation
- Title(参考訳): 外科用機器セグメンテーションのためのパート・ツー・ホール共同プロンプト
- Authors: Wenxi Yue, Jing Zhang, Kun Hu, Qiuxia Wu, Zongyuan Ge, Yong Xia, Jiebo Luo, Zhiyong Wang,
- Abstract要約: Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
- 参考スコア(独自算出の注目度): 66.21356751558011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) exhibits promise in generic object segmentation and offers potential for various applications. Existing methods have applied SAM to surgical instrument segmentation (SIS) by tuning SAM-based frameworks with surgical data. However, they fall short in two crucial aspects: (1) Straightforward model tuning with instrument masks treats each instrument as a single entity, neglecting their complex structures and fine-grained details; and (2) Instrument category-based prompts are not flexible and informative enough to describe instrument structures. To address these problems, in this paper, we investigate text promptable SIS and propose SurgicalPart-SAM (SP-SAM), a novel SAM efficient-tuning approach that explicitly integrates instrument structure knowledge with SAM's generic knowledge, guided by expert knowledge on instrument part compositions. Specifically, we achieve this by proposing (1) Collaborative Prompts that describe instrument structures via collaborating category-level and part-level texts; (2) Cross-Modal Prompt Encoder that encodes text prompts jointly with visual embeddings into discriminative part-level representations; and (3) Part-to-Whole Adaptive Fusion and Hierarchical Decoding that adaptively fuse the part-level representations into a whole for accurate instrument segmentation in surgical scenarios. Built upon them, SP-SAM acquires a better capability to comprehend surgical instruments in terms of both overall structure and part-level details. Extensive experiments on both the EndoVis2018 and EndoVis2017 datasets demonstrate SP-SAM's state-of-the-art performance with minimal tunable parameters. The code will be available at https://github.com/wenxi-yue/SurgicalPart-SAM.
- Abstract(参考訳): Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
しかし,(1)楽器マスクを用いたストレートフォワードモデルチューニングは,それぞれの楽器を単一の実体として扱い,複雑な構造や細かな細部を無視する。(2)楽器カテゴリーに基づくプロンプトは,楽器構造を記述するのに十分な柔軟性と情報に乏しい。
本稿では,これらの課題に対処するため,有能な SIS のテキストを解析し,SAM の汎用知識と楽器構造知識を明確に統合する新しい SAM の効率的なチューニング手法であるオペレーショナル・パート・SAM (SP-SAM) を提案する。
具体的には,(1)分類レベルのテキストと部分レベルのテキストを協調して楽器構造を記述する協調プロンプト,(2)分類的な部分レベルの表現に視覚的埋め込みを伴ってテキストをエンコードするクロスモーダルプロンプトエンコーダ,(3)手術シナリオにおいて,部分レベルの表現全体を適応的に融合させるパート・ツー・ホール適応フュージョンと階層デコードを提案する。
それらに基づいてSP-SAMは、全体的な構造と部分レベルの詳細の両方の観点から、手術器具を理解するためのより良い能力を得る。
EndoVis2018とEndoVis2017の両方のデータセットに対する大規模な実験は、最小限のチューニング可能なパラメータでSP-SAMの最先端のパフォーマンスを示している。
コードはhttps://github.com/wenxi-yue/SurgicalPart-SAMで入手できる。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Amodal Segmentation for Laparoscopic Surgery Video Instruments [30.39518393494816]
医療分野における手術器具の領域にAmodalVisを導入する。
このテクニックは、オブジェクトの可視部と隠蔽部の両方を識別する。
これを実現するために,新しいAmoal Instrumentsデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-02T07:40:34Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Surgical-DeSAM: Decoupling SAM for Instrument Segmentation in Robotic Surgery [9.466779367920049]
安全クリティカルな外科的タスクでは、教師あり学習のためのフレーム単位のプロンプトが欠如しているため、プロンプトは不可能である。
リアルタイムトラッキングアプリケーションのフレーム単位でのプロンプトは非現実的であり,オフラインアプリケーションのアノテートには費用がかかる。
実時間ロボット手術において,SAMを分離するための自動バウンディングボックスプロンプトを生成するために,手術用デSAMを開発した。
論文 参考訳(メタデータ) (2024-04-22T09:53:55Z) - Learning to Prompt Segment Anything Models [55.805816693815835]
Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
論文 参考訳(メタデータ) (2024-01-09T16:24:25Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - SAM Meets Robotic Surgery: An Empirical Study on Generalization,
Robustness and Adaptation [15.995869434429274]
Segment Anything Model (SAM) はセグメンテーションの基本モデルとして機能する。
ロボット外科領域におけるSAMの頑健性とゼロショットの一般化性について検討した。
論文 参考訳(メタデータ) (2023-08-14T14:09:41Z) - SAM Meets Robotic Surgery: An Empirical Study in Robustness Perspective [21.2080716792596]
Segment Anything Model (SAM) は意味的セグメンテーションの基礎モデルである。
ロボット手術領域におけるSAMのロバスト性とゼロショット一般化性について検討した。
論文 参考訳(メタデータ) (2023-04-28T08:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。