論文の概要: Text Promptable Surgical Instrument Segmentation with Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2306.09244v3
- Date: Wed, 8 Nov 2023 15:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:37:43.118567
- Title: Text Promptable Surgical Instrument Segmentation with Vision-Language
Models
- Title(参考訳): 視覚言語モデルを用いたテキストプロンプタブル手術機器のセグメンテーション
- Authors: Zijian Zhou, Oluwatosin Alabi, Meng Wei, Tom Vercauteren, Miaojing Shi
- Abstract要約: そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
- 参考スコア(独自算出の注目度): 16.203166812021045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel text promptable surgical instrument
segmentation approach to overcome challenges associated with diversity and
differentiation of surgical instruments in minimally invasive surgeries. We
redefine the task as text promptable, thereby enabling a more nuanced
comprehension of surgical instruments and adaptability to new instrument types.
Inspired by recent advancements in vision-language models, we leverage
pretrained image and text encoders as our model backbone and design a text
promptable mask decoder consisting of attention- and convolution-based
prompting schemes for surgical instrument segmentation prediction. Our model
leverages multiple text prompts for each surgical instrument through a new
mixture of prompts mechanism, resulting in enhanced segmentation performance.
Additionally, we introduce a hard instrument area reinforcement module to
improve image feature comprehension and segmentation precision. Extensive
experiments on several surgical instrument segmentation datasets demonstrate
our model's superior performance and promising generalization capability. To
our knowledge, this is the first implementation of a promptable approach to
surgical instrument segmentation, offering significant potential for practical
application in the field of robotic-assisted surgery. Code is available at
https://github.com/franciszzj/TP-SIS.
- Abstract(参考訳): 本稿では,低侵襲手術における手術器具の多様性と分化に関わる課題を克服するために,新しいテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
課題をテキストとして再定義することで,手術器具のよりきめ細やかな理解と,新たな機器タイプへの適応性を実現する。
近年の視覚言語モデルの進歩に触発されて,プリトレーニングされた画像とテキストエンコーダをモデルバックボーンとして活用し,注意と畳み込みに基づくセンセーション予測のためのテキストプロンプト可能なマスクデコーダを設計した。
本モデルでは,手術器具毎に複数のテキストプロンプトを併用し,新たなプロンプト機構によりセグメンテーション性能が向上した。
さらに,画像特徴理解とセグメンテーション精度を向上させるためのハードインスツルメンテーション領域強化モジュールを提案する。
いくつかの手術器具セグメンテーションデータセットに対する大規模な実験は、我々のモデルの優れた性能と有望な一般化能力を示している。
我々の知る限り、これは外科用機器セグメンテーションへの迅速なアプローチの最初の実装であり、ロボットアシスト手術の分野での実用化に有意義な可能性を秘めている。
コードはhttps://github.com/franciszzj/tp-sisで入手できる。
関連論文リスト
- Pixel-Wise Recognition for Holistic Surgical Scene Understanding [31.338288460529046]
本稿では,前立腺腫 (GraSP) データセットについて述べる。
GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。
本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - Part to Whole: Collaborative Prompting for Surgical Instrument
Segmentation [69.06539951868861]
Segment Anything Model (SAM) のような基盤モデルは、ジェネリックオブジェクトセグメンテーションの可能性を実証している。
SAMは、外科医とコンピュータの相互作用を複雑にするフレーム単位のポイント・オー・ボックスプロンプトに依存している。
本研究では,手術器具の構造知識とSAMの一般的なセグメンテーション知識を統合する,新しい効率的なチューニング手法であるSP-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures [54.376834698110684]
本研究では,オープンな外科的eラーニングプラットフォームを通じて利用可能な手術ビデオ講義が,効果的な監視信号を提供することができるという考えを提起した。
我々は複数の補完的な自動音声認識システムを用いてテキストの書き起こしを生成する。
次に、多モーダル表現学習のための新しい方法、Surg - Surgery Vision Language Pre-trainingを提案する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - Segmenting Medical Instruments in Minimally Invasive Surgeries using
AttentionMask [66.63753229115983]
我々は,オブジェクト提案生成システムであるAttentionMaskに適応し,将来的な提案を選択するための専用の後処理を提案する。
ROBUST-MIS Challenge 2019の結果から,適応型 AttentionMask システムは最先端のパフォーマンスを実現するための強力な基盤であることがわかった。
論文 参考訳(メタデータ) (2022-03-21T21:37:56Z) - Surgical Instruction Generation with Transformers [6.97857490403095]
本稿では,自己クリティカル強化学習を用いたトランスフォーマーバックボンドエンコーダデコーダネットワークを導入し,手術画像から指示を生成する。
各種医療分野の290の手順を含むDAISIデータセットに対して,本手法の有効性を評価した。
論文 参考訳(メタデータ) (2021-07-14T19:54:50Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。