論文の概要: Part to Whole: Collaborative Prompting for Surgical Instrument
Segmentation
- arxiv url: http://arxiv.org/abs/2312.14481v1
- Date: Fri, 22 Dec 2023 07:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:51:34.371169
- Title: Part to Whole: Collaborative Prompting for Surgical Instrument
Segmentation
- Title(参考訳): 手術器具分割のための協調的プロンプト
- Authors: Wenxi Yue, Jing Zhang, Kun Hu, Qiuxia Wu, Zongyuan Ge, Yong Xia, Jiebo
Luo, Zhiyong Wang
- Abstract要約: Segment Anything Model (SAM) のような基盤モデルは、ジェネリックオブジェクトセグメンテーションの可能性を実証している。
SAMは、外科医とコンピュータの相互作用を複雑にするフレーム単位のポイント・オー・ボックスプロンプトに依存している。
本研究では,手術器具の構造知識とSAMの一般的なセグメンテーション知識を統合する,新しい効率的なチューニング手法であるSP-SAMを提案する。
- 参考スコア(独自算出の注目度): 69.06539951868861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models like the Segment Anything Model (SAM) have demonstrated
promise in generic object segmentation. However, directly applying SAM to
surgical instrument segmentation presents key challenges. First, SAM relies on
per-frame point-or-box prompts which complicate surgeon-computer interaction.
Also, SAM yields suboptimal performance on segmenting surgical instruments,
owing to insufficient surgical data in its pre-training as well as the complex
structure and fine-grained details of various surgical instruments. To address
these challenges, in this paper, we investigate text promptable surgical
instrument segmentation and propose SP-SAM (SurgicalPart-SAM), a novel
efficient-tuning approach that integrates surgical instrument structure
knowledge with the generic segmentation knowledge of SAM. Specifically, we
achieve this by proposing (1) collaborative prompts in the text form "[part
name] of [instrument category name]" that decompose instruments into
fine-grained parts; (2) a Cross-Modal Prompt Encoder that encodes text prompts
jointly with visual embeddings into discriminative part-level representations;
and (3) a Part-to-Whole Selective Fusion and a Hierarchical Decoding strategy
that selectively assemble the part-level representations into a whole for
accurate instrument segmentation. Built upon them, SP-SAM acquires a better
capability to comprehend surgical instrument structures and distinguish between
various categories. Extensive experiments on both the EndoVis2018 and
EndoVis2017 datasets demonstrate SP-SAM's state-of-the-art performance with
minimal tunable parameters. Code is at
https://github.com/wenxi-yue/SurgicalPart-SAM.
- Abstract(参考訳): Segment Anything Model (SAM)のような基礎モデルでは、ジェネリックオブジェクトセグメンテーションが約束されている。
しかし,手術器具のセグメンテーションにSAMを直接適用することは重要な課題である。
まずSAMは、外科医とコンピュータの相互作用を複雑にするフレーム単位のポイント・オー・ボックスプロンプトに依存する。
また、SAMは、手術前訓練に不十分な手術データ、複雑な構造、各種手術器具の細部の詳細などにより、外科器具の分節化に最適である。
これらの課題に対処するため,本論文では,テキスト・プロンプト可能な手術器具のセグメンテーションについて検討し,手術器具の構造知識とSAMの汎用セグメンテーション知識を統合した,新しい効率的なチューニング手法であるSP-SAM(Surgical Part-SAM)を提案する。
Specifically, we achieve this by proposing (1) collaborative prompts in the text form "[part name] of [instrument category name]" that decompose instruments into fine-grained parts; (2) a Cross-Modal Prompt Encoder that encodes text prompts jointly with visual embeddings into discriminative part-level representations; and (3) a Part-to-Whole Selective Fusion and a Hierarchical Decoding strategy that selectively assemble the part-level representations into a whole for accurate instrument segmentation.
SP-SAMは、手術器具の構造を理解し、様々なカテゴリーを区別するより良い能力を得る。
EndoVis2018とEndoVis2017の両方のデータセットに対する大規模な実験は、最小限のチューニング可能なパラメータでSP-SAMの最先端のパフォーマンスを示している。
コードはhttps://github.com/wenxi-yue/SurgicalPart-SAMにある。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Amodal Segmentation for Laparoscopic Surgery Video Instruments [30.39518393494816]
医療分野における手術器具の領域にAmodalVisを導入する。
このテクニックは、オブジェクトの可視部と隠蔽部の両方を識別する。
これを実現するために,新しいAmoal Instrumentsデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-02T07:40:34Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Surgical-DeSAM: Decoupling SAM for Instrument Segmentation in Robotic Surgery [9.466779367920049]
安全クリティカルな外科的タスクでは、教師あり学習のためのフレーム単位のプロンプトが欠如しているため、プロンプトは不可能である。
リアルタイムトラッキングアプリケーションのフレーム単位でのプロンプトは非現実的であり,オフラインアプリケーションのアノテートには費用がかかる。
実時間ロボット手術において,SAMを分離するための自動バウンディングボックスプロンプトを生成するために,手術用デSAMを開発した。
論文 参考訳(メタデータ) (2024-04-22T09:53:55Z) - Learning to Prompt Segment Anything Models [55.805816693815835]
Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
論文 参考訳(メタデータ) (2024-01-09T16:24:25Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - SAM Meets Robotic Surgery: An Empirical Study on Generalization,
Robustness and Adaptation [15.995869434429274]
Segment Anything Model (SAM) はセグメンテーションの基本モデルとして機能する。
ロボット外科領域におけるSAMの頑健性とゼロショットの一般化性について検討した。
論文 参考訳(メタデータ) (2023-08-14T14:09:41Z) - SAM Meets Robotic Surgery: An Empirical Study in Robustness Perspective [21.2080716792596]
Segment Anything Model (SAM) は意味的セグメンテーションの基礎モデルである。
ロボット手術領域におけるSAMのロバスト性とゼロショット一般化性について検討した。
論文 参考訳(メタデータ) (2023-04-28T08:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。