論文の概要: Part to Whole: Collaborative Prompting for Surgical Instrument
Segmentation
- arxiv url: http://arxiv.org/abs/2312.14481v1
- Date: Fri, 22 Dec 2023 07:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:51:34.371169
- Title: Part to Whole: Collaborative Prompting for Surgical Instrument
Segmentation
- Title(参考訳): 手術器具分割のための協調的プロンプト
- Authors: Wenxi Yue, Jing Zhang, Kun Hu, Qiuxia Wu, Zongyuan Ge, Yong Xia, Jiebo
Luo, Zhiyong Wang
- Abstract要約: Segment Anything Model (SAM) のような基盤モデルは、ジェネリックオブジェクトセグメンテーションの可能性を実証している。
SAMは、外科医とコンピュータの相互作用を複雑にするフレーム単位のポイント・オー・ボックスプロンプトに依存している。
本研究では,手術器具の構造知識とSAMの一般的なセグメンテーション知識を統合する,新しい効率的なチューニング手法であるSP-SAMを提案する。
- 参考スコア(独自算出の注目度): 69.06539951868861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models like the Segment Anything Model (SAM) have demonstrated
promise in generic object segmentation. However, directly applying SAM to
surgical instrument segmentation presents key challenges. First, SAM relies on
per-frame point-or-box prompts which complicate surgeon-computer interaction.
Also, SAM yields suboptimal performance on segmenting surgical instruments,
owing to insufficient surgical data in its pre-training as well as the complex
structure and fine-grained details of various surgical instruments. To address
these challenges, in this paper, we investigate text promptable surgical
instrument segmentation and propose SP-SAM (SurgicalPart-SAM), a novel
efficient-tuning approach that integrates surgical instrument structure
knowledge with the generic segmentation knowledge of SAM. Specifically, we
achieve this by proposing (1) collaborative prompts in the text form "[part
name] of [instrument category name]" that decompose instruments into
fine-grained parts; (2) a Cross-Modal Prompt Encoder that encodes text prompts
jointly with visual embeddings into discriminative part-level representations;
and (3) a Part-to-Whole Selective Fusion and a Hierarchical Decoding strategy
that selectively assemble the part-level representations into a whole for
accurate instrument segmentation. Built upon them, SP-SAM acquires a better
capability to comprehend surgical instrument structures and distinguish between
various categories. Extensive experiments on both the EndoVis2018 and
EndoVis2017 datasets demonstrate SP-SAM's state-of-the-art performance with
minimal tunable parameters. Code is at
https://github.com/wenxi-yue/SurgicalPart-SAM.
- Abstract(参考訳): Segment Anything Model (SAM)のような基礎モデルでは、ジェネリックオブジェクトセグメンテーションが約束されている。
しかし,手術器具のセグメンテーションにSAMを直接適用することは重要な課題である。
まずSAMは、外科医とコンピュータの相互作用を複雑にするフレーム単位のポイント・オー・ボックスプロンプトに依存する。
また、SAMは、手術前訓練に不十分な手術データ、複雑な構造、各種手術器具の細部の詳細などにより、外科器具の分節化に最適である。
これらの課題に対処するため,本論文では,テキスト・プロンプト可能な手術器具のセグメンテーションについて検討し,手術器具の構造知識とSAMの汎用セグメンテーション知識を統合した,新しい効率的なチューニング手法であるSP-SAM(Surgical Part-SAM)を提案する。
Specifically, we achieve this by proposing (1) collaborative prompts in the text form "[part name] of [instrument category name]" that decompose instruments into fine-grained parts; (2) a Cross-Modal Prompt Encoder that encodes text prompts jointly with visual embeddings into discriminative part-level representations; and (3) a Part-to-Whole Selective Fusion and a Hierarchical Decoding strategy that selectively assemble the part-level representations into a whole for accurate instrument segmentation.
SP-SAMは、手術器具の構造を理解し、様々なカテゴリーを区別するより良い能力を得る。
EndoVis2018とEndoVis2017の両方のデータセットに対する大規模な実験は、最小限のチューニング可能なパラメータでSP-SAMの最先端のパフォーマンスを示している。
コードはhttps://github.com/wenxi-yue/SurgicalPart-SAMにある。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - SAM Meets Robotic Surgery: An Empirical Study on Generalization,
Robustness and Adaptation [15.995869434429274]
Segment Anything Model (SAM) はセグメンテーションの基本モデルとして機能する。
ロボット外科領域におけるSAMの頑健性とゼロショットの一般化性について検討した。
論文 参考訳(メタデータ) (2023-08-14T14:09:41Z) - Text Promptable Surgical Instrument Segmentation with Vision-Language
Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-15T16:26:20Z) - SAM Meets Robotic Surgery: An Empirical Study in Robustness Perspective [21.2080716792596]
Segment Anything Model (SAM) は意味的セグメンテーションの基礎モデルである。
ロボット手術領域におけるSAMのロバスト性とゼロショット一般化性について検討した。
論文 参考訳(メタデータ) (2023-04-28T08:06:33Z) - Medical SAM Adapter: Adapting Segment Anything Model for Medical Image
Segmentation [51.770805270588625]
Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。
近年の研究では、SAMは医用画像のセグメンテーションにおいて過小評価されている。
ドメイン固有の医療知識をセグメンテーションモデルに組み込んだ医療SAMアダプタ(Med-SA)を提案する。
論文 参考訳(メタデータ) (2023-04-25T07:34:22Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。