論文の概要: Text Promptable Surgical Instrument Segmentation with Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2306.09244v3
- Date: Wed, 8 Nov 2023 15:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:37:43.118567
- Title: Text Promptable Surgical Instrument Segmentation with Vision-Language
Models
- Title(参考訳): 視覚言語モデルを用いたテキストプロンプタブル手術機器のセグメンテーション
- Authors: Zijian Zhou, Oluwatosin Alabi, Meng Wei, Tom Vercauteren, Miaojing Shi
- Abstract要約: そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
- 参考スコア(独自算出の注目度): 16.203166812021045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel text promptable surgical instrument
segmentation approach to overcome challenges associated with diversity and
differentiation of surgical instruments in minimally invasive surgeries. We
redefine the task as text promptable, thereby enabling a more nuanced
comprehension of surgical instruments and adaptability to new instrument types.
Inspired by recent advancements in vision-language models, we leverage
pretrained image and text encoders as our model backbone and design a text
promptable mask decoder consisting of attention- and convolution-based
prompting schemes for surgical instrument segmentation prediction. Our model
leverages multiple text prompts for each surgical instrument through a new
mixture of prompts mechanism, resulting in enhanced segmentation performance.
Additionally, we introduce a hard instrument area reinforcement module to
improve image feature comprehension and segmentation precision. Extensive
experiments on several surgical instrument segmentation datasets demonstrate
our model's superior performance and promising generalization capability. To
our knowledge, this is the first implementation of a promptable approach to
surgical instrument segmentation, offering significant potential for practical
application in the field of robotic-assisted surgery. Code is available at
https://github.com/franciszzj/TP-SIS.
- Abstract(参考訳): 本稿では,低侵襲手術における手術器具の多様性と分化に関わる課題を克服するために,新しいテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
課題をテキストとして再定義することで,手術器具のよりきめ細やかな理解と,新たな機器タイプへの適応性を実現する。
近年の視覚言語モデルの進歩に触発されて,プリトレーニングされた画像とテキストエンコーダをモデルバックボーンとして活用し,注意と畳み込みに基づくセンセーション予測のためのテキストプロンプト可能なマスクデコーダを設計した。
本モデルでは,手術器具毎に複数のテキストプロンプトを併用し,新たなプロンプト機構によりセグメンテーション性能が向上した。
さらに,画像特徴理解とセグメンテーション精度を向上させるためのハードインスツルメンテーション領域強化モジュールを提案する。
いくつかの手術器具セグメンテーションデータセットに対する大規模な実験は、我々のモデルの優れた性能と有望な一般化能力を示している。
我々の知る限り、これは外科用機器セグメンテーションへの迅速なアプローチの最初の実装であり、ロボットアシスト手術の分野での実用化に有意義な可能性を秘めている。
コードはhttps://github.com/franciszzj/tp-sisで入手できる。
関連論文リスト
- Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement [7.150163844454341]
視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
非対称特徴拡張モジュール(TAFE)を用いたトランスフォーマーベースの新しいフレームワークを提案する。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
論文 参考訳(メタデータ) (2024-10-23T07:58:47Z) - HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition [51.222684687924215]
HecVLは、一般的な手術モデルを構築するための新しい階層型ビデオ言語事前学習手法である。
本稿では,3つのビデオテキスト階層に対する個別の埋め込み空間を学習する,より詳細なコントラスト学習フレームワークを提案する。
異なる階層レベルの埋め込み空間を分離することにより、学習されたマルチモーダル表現は、同じモデルにおける短期的および長期的な外科的概念を符号化する。
論文 参考訳(メタデータ) (2024-05-16T13:14:43Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [31.338288460529046]
本稿では,前立腺腫 (GraSP) データセットについて述べる。
GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。
本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z) - Surgical Instruction Generation with Transformers [6.97857490403095]
本稿では,自己クリティカル強化学習を用いたトランスフォーマーバックボンドエンコーダデコーダネットワークを導入し,手術画像から指示を生成する。
各種医療分野の290の手順を含むDAISIデータセットに対して,本手法の有効性を評価した。
論文 参考訳(メタデータ) (2021-07-14T19:54:50Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。