論文の概要: Rethinking Text-Promptable Surgical Instrument Segmentation with Robust Framework
- arxiv url: http://arxiv.org/abs/2411.12199v2
- Date: Mon, 17 Feb 2025 01:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:27.497177
- Title: Rethinking Text-Promptable Surgical Instrument Segmentation with Robust Framework
- Title(参考訳): ロバスト・フレームワークによるテキストプロンプタブル手術器具のセグメンテーション再考
- Authors: Tae-Min Choi, Juyoun Park,
- Abstract要約: 手術器具のセグメンテーションはコンピュータによる手術に不可欠である。
現在のメソッドでは、テキストで記述されたオブジェクトが存在すると仮定し、オブジェクトが存在しない場合でも、常に関連するマスクを生成します。
我々はテキストプロンプタブルSISを再考し、テキストプロンプタブルSIS(R-SIS)として頑健な条件下で再定義する。
RoSISは、マルチモーダル・フュージョン・ブロック(MMFB)と選択ゲート・ブロック(SGB)を備えたエンコーダ・デコーダアーキテクチャを使用して、視覚と言語機能のバランスよく統合している。
- 参考スコア(独自算出の注目度): 3.3148826359547514
- License:
- Abstract: Surgical instrument segmentation (SIS) is essential in computer-assisted surgeries, with deep learning methods improving accuracy in complex environments. Recently, text-promptable segmentation methods have been introduced, generating masks based on textual descriptions. However, they assume the text-described object is present and always generate an associated mask even when the object is absent. Existing methods address this by using prompts only for objects already known to exist in the scene, which relies on inaccessible information. To address this, we rethink text-promptable SIS and redefine it under robust conditions as Robust text-promptable SIS (R-SIS). Unlike previous approaches, R-SIS is a process that analyzes text prompts for all surgical instrument categories without relying on external knowledge, identifies the instruments present in the scene, and segments them accordingly. Building on this, we propose Robust Surgical Instrument Segmentation (RoSIS), an optimized framework combining visual and language features for promptable segmentation in the R-SIS setting. RoSIS employs an encoder-decoder architecture with a Multi-Modal Fusion Block (MMFB) and a Selective Gate Block (SGB) for balanced integration of vision and language features. Additionally, an iterative refinement strategy enhances segmentation masks through a two-step process: an initial pass with name-based prompts, followed by refinement with location prompts. Experiments across multiple datasets and settings show that RoSIS outperforms existing vision-based and promptable segmentation methods under robust conditions. By rethinking text-promptable SIS, our work establishes a fair and effective approach to surgical instrument segmentation.
- Abstract(参考訳): 手術器具のセグメンテーション(SIS)はコンピュータ補助手術において必須であり、深層学習法は複雑な環境における精度を向上させる。
近年,テキスト記述に基づいてマスクを生成するテキストプロンプタブルセグメンテーション手法が導入されている。
しかし、テキストで記述されたオブジェクトが存在すると仮定し、オブジェクトが存在しない場合でも常に関連するマスクを生成する。
既存のメソッドは、アクセシブルな情報に依存するシーンにすでに存在するオブジェクトに対してのみ、プロンプトを使用することで、この問題に対処する。
これを解決するために、テキストプロンプタブルSISを再考し、ロバストテキストプロンプタブルSIS(R-SIS)として頑健な条件下で再定義する。
従来のアプローチとは異なり、R-SISは、外部知識に頼らずにすべての手術器具カテゴリのテキストプロンプトを分析し、シーンに存在する機器を識別し、それに従って分割するプロセスである。
そこで本研究では,R-SIS設定における視覚的特徴と言語的特徴を併用したロバスト手術機器セグメンテーション(RoSIS)を提案する。
RoSISは、マルチモーダル・フュージョン・ブロック(MMFB)と選択ゲート・ブロック(SGB)を備えたエンコーダ・デコーダアーキテクチャを使用して、視覚と言語機能のバランスよく統合している。
さらに、反復的な改善戦略は2段階のプロセスを通じてセグメンテーションマスクを強化する。
複数のデータセットと設定にわたる実験により、RoSISは、ロバストな条件下で、既存のビジョンベースおよびプロンプト可能なセグメンテーションメソッドより優れていることが示された。
本研究は,テキスト・プロンプタブルSISを再考することによって,手術器具のセグメンテーションに対する公平かつ効果的なアプローチを確立した。
関連論文リスト
- Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation [41.67544072483324]
Referring Video Object (RVOS) は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメント化することを目的としている。
本稿では,テキスト・アウェア・プロンプト・コントラスト・ラーニング(TAP-CL)を提案する。
提案したTAP-CLにより、GroPromptフレームワークは時間一貫性はあるがテキスト対応の位置プロンプトを生成することができる。
論文 参考訳(メタデータ) (2024-06-18T17:54:17Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - STEP -- Towards Structured Scene-Text Spotting [9.339184886724812]
そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
論文 参考訳(メタデータ) (2023-09-05T16:11:54Z) - ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining [58.241008246380254]
シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
論文 参考訳(メタデータ) (2023-06-21T08:47:20Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。