論文の概要: RoSIS: Robust Framework for Text-Promptable Surgical Instrument Segmentation Using Vision-Language Fusion
- arxiv url: http://arxiv.org/abs/2411.12199v1
- Date: Tue, 19 Nov 2024 03:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:42.879032
- Title: RoSIS: Robust Framework for Text-Promptable Surgical Instrument Segmentation Using Vision-Language Fusion
- Title(参考訳): RoSIS: Vision-Language Fusion を用いたテキストプロンプタブル手術機器分割のためのロバストフレームワーク
- Authors: Tae-Min Choi, Juyoun Park,
- Abstract要約: 手術器具のセグメンテーションは、コンピュータによる外科手術に欠かせない課題である。
近年,ターゲットオブジェクトを記述するテキストプロンプトに基づいてマスクを生成する手法が提案されている。
これにより、オブジェクトが画像から欠落している場合でも、関連するテキストプロンプトが提供されるたびにマスクが生成される。
既存の方法では、イメージに存在することがわかっているオブジェクトに対してのみプロンプトを使用することで、これを処理している。
本稿では,全クラスのプロンプトをフォワードし,与えられたテキストプロンプトからオブジェクトの存在を公正な比較のために決定するRobust text-promptable SIS (R-SIS)を提案する。
- 参考スコア(独自算出の注目度): 3.3148826359547514
- License:
- Abstract: Surgical instrument segmentation (SIS) is an essential task in computer-assisted surgeries, with deep learning-based research improving accuracy in complex environments. Recently, text-promptable segmentation methods have been introduced to generate masks based on text prompts describing target objects. However, these methods assume that the object described by a given text prompt exists in the scene. This results in mask generation whenever a related text prompt is provided, even if the object is absent from the image. Existing methods handle this by using prompts only for objects known to be present in the image, which introduces inaccessible information in a vision-based method setting and results in unfair comparisons. For fair comparison, we redefine existing text-promptable SIS settings to robust conditions, called Robust text-promptable SIS (R-SIS), designed to forward prompts of all classes and determine the existence of an object from a given text prompt for the fair comparison. Furthermore, we propose a novel framework, Robust Surgical Instrument Segmentation (RoSIS), which combines visual and language features for promptable segmentation in the R-SIS setting. RoSIS employs an encoder-decoder architecture with a Multi-Modal Fusion Block (MMFB) and a Selective Gate Block (SGB) to achieve balanced integration of vision and language features. Additionally, we introduce an iterative inference strategy that refines segmentation masks in two steps: an initial pass using name-based prompts, followed by a refinement step using location prompts. Experiments on various datasets and settings demonstrate that RoSIS outperforms existing vision-based and promptable methods under robust conditions.
- Abstract(参考訳): 手術器具のセグメンテーション(SIS)は、コンピュータ支援手術において必須の課題であり、深層学習に基づく研究により複雑な環境における精度が向上する。
近年,ターゲットオブジェクトを記述したテキストプロンプトに基づいたマスクを生成するために,テキストプロンプト可能なセグメンテーション手法が導入されている。
しかし、これらの手法は、与えられたテキストプロンプトによって記述されたオブジェクトがシーンに存在すると仮定する。
これにより、オブジェクトが画像から欠落している場合でも、関連するテキストプロンプトが提供されるたびにマスクが生成される。
既存の手法では、画像に存在する物体のみをプロンプトとして処理し、視覚ベースの手法設定でアクセス不能な情報を導入し、不公平な比較を行う。
公正な比較のために、既存のテキストプロンプト可能なSIS設定をロバストテキストプロンプト可能なSIS (R-SIS) と呼ばれる堅牢な条件に再定義し、全てのクラスのプロンプトを転送し、公正な比較のために与えられたテキストプロンプトからオブジェクトの存在を決定する。
さらに,R-SIS設定における視覚的特徴と言語的特徴を組み合わせたロバスト手術機器セグメンテーション(RoSIS)を提案する。
RoSISは、マルチモーダル・フュージョン・ブロック(MMFB)と選択ゲート・ブロック(SGB)を備えたエンコーダ・デコーダアーキテクチャを使用して、視覚と言語機能のバランスの取れた統合を実現している。
さらに,2つのステップでセグメンテーションマスクを洗練させる反復的推論戦略を導入し,名前ベースのプロンプトを用いた初期パスと位置プロンプトを用いた改良ステップを提案する。
さまざまなデータセットと設定の実験では、RoSISがロバストな条件下で既存のビジョンベースおよびプロンプト可能なメソッドより優れていることが示されている。
関連論文リスト
- RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - STEP -- Towards Structured Scene-Text Spotting [9.339184886724812]
そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
論文 参考訳(メタデータ) (2023-09-05T16:11:54Z) - Robotic Scene Segmentation with Memory Network for Runtime Surgical
Context Inference [8.600278838838163]
Space Time Cor correspondingence Network (STCN) は、二分セグメンテーションを行い、クラス不均衡の影響を最小限に抑えるメモリネットワークである。
針や糸などのセグメント化が困難なオブジェクトに対して,STCNが優れたセグメンテーション性能を実現することを示す。
また,性能を損なうことなく,実行時にセグメンテーションとコンテキスト推論を実行できることを示す。
論文 参考訳(メタデータ) (2023-08-24T13:44:55Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。