論文の概要: Rethinking Text-Promptable Surgical Instrument Segmentation with Robust Framework
- arxiv url: http://arxiv.org/abs/2411.12199v2
- Date: Mon, 17 Feb 2025 01:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:27.497177
- Title: Rethinking Text-Promptable Surgical Instrument Segmentation with Robust Framework
- Title(参考訳): ロバスト・フレームワークによるテキストプロンプタブル手術器具のセグメンテーション再考
- Authors: Tae-Min Choi, Juyoun Park,
- Abstract要約: 手術器具のセグメンテーションはコンピュータによる手術に不可欠である。
現在のメソッドでは、テキストで記述されたオブジェクトが存在すると仮定し、オブジェクトが存在しない場合でも、常に関連するマスクを生成します。
我々はテキストプロンプタブルSISを再考し、テキストプロンプタブルSIS(R-SIS)として頑健な条件下で再定義する。
RoSISは、マルチモーダル・フュージョン・ブロック(MMFB)と選択ゲート・ブロック(SGB)を備えたエンコーダ・デコーダアーキテクチャを使用して、視覚と言語機能のバランスよく統合している。
- 参考スコア(独自算出の注目度): 3.3148826359547514
- License:
- Abstract: Surgical instrument segmentation (SIS) is essential in computer-assisted surgeries, with deep learning methods improving accuracy in complex environments. Recently, text-promptable segmentation methods have been introduced, generating masks based on textual descriptions. However, they assume the text-described object is present and always generate an associated mask even when the object is absent. Existing methods address this by using prompts only for objects already known to exist in the scene, which relies on inaccessible information. To address this, we rethink text-promptable SIS and redefine it under robust conditions as Robust text-promptable SIS (R-SIS). Unlike previous approaches, R-SIS is a process that analyzes text prompts for all surgical instrument categories without relying on external knowledge, identifies the instruments present in the scene, and segments them accordingly. Building on this, we propose Robust Surgical Instrument Segmentation (RoSIS), an optimized framework combining visual and language features for promptable segmentation in the R-SIS setting. RoSIS employs an encoder-decoder architecture with a Multi-Modal Fusion Block (MMFB) and a Selective Gate Block (SGB) for balanced integration of vision and language features. Additionally, an iterative refinement strategy enhances segmentation masks through a two-step process: an initial pass with name-based prompts, followed by refinement with location prompts. Experiments across multiple datasets and settings show that RoSIS outperforms existing vision-based and promptable segmentation methods under robust conditions. By rethinking text-promptable SIS, our work establishes a fair and effective approach to surgical instrument segmentation.
- Abstract(参考訳): 手術器具のセグメンテーション(SIS)はコンピュータ補助手術において必須であり、深層学習法は複雑な環境における精度を向上させる。
近年,テキスト記述に基づいてマスクを生成するテキストプロンプタブルセグメンテーション手法が導入されている。
しかし、テキストで記述されたオブジェクトが存在すると仮定し、オブジェクトが存在しない場合でも常に関連するマスクを生成する。
既存のメソッドは、アクセシブルな情報に依存するシーンにすでに存在するオブジェクトに対してのみ、プロンプトを使用することで、この問題に対処する。
これを解決するために、テキストプロンプタブルSISを再考し、ロバストテキストプロンプタブルSIS(R-SIS)として頑健な条件下で再定義する。
従来のアプローチとは異なり、R-SISは、外部知識に頼らずにすべての手術器具カテゴリのテキストプロンプトを分析し、シーンに存在する機器を識別し、それに従って分割するプロセスである。
そこで本研究では,R-SIS設定における視覚的特徴と言語的特徴を併用したロバスト手術機器セグメンテーション(RoSIS)を提案する。
RoSISは、マルチモーダル・フュージョン・ブロック(MMFB)と選択ゲート・ブロック(SGB)を備えたエンコーダ・デコーダアーキテクチャを使用して、視覚と言語機能のバランスよく統合している。
さらに、反復的な改善戦略は2段階のプロセスを通じてセグメンテーションマスクを強化する。
複数のデータセットと設定にわたる実験により、RoSISは、ロバストな条件下で、既存のビジョンベースおよびプロンプト可能なセグメンテーションメソッドより優れていることが示された。
本研究は,テキスト・プロンプタブルSISを再考することによって,手術器具のセグメンテーションに対する公平かつ効果的なアプローチを確立した。
関連論文リスト
- RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - STEP -- Towards Structured Scene-Text Spotting [9.339184886724812]
そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
論文 参考訳(メタデータ) (2023-09-05T16:11:54Z) - Robotic Scene Segmentation with Memory Network for Runtime Surgical
Context Inference [8.600278838838163]
Space Time Cor correspondingence Network (STCN) は、二分セグメンテーションを行い、クラス不均衡の影響を最小限に抑えるメモリネットワークである。
針や糸などのセグメント化が困難なオブジェクトに対して,STCNが優れたセグメンテーション性能を実現することを示す。
また,性能を損なうことなく,実行時にセグメンテーションとコンテキスト推論を実行できることを示す。
論文 参考訳(メタデータ) (2023-08-24T13:44:55Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。