論文の概要: RoSIS: Robust Framework for Text-Promptable Surgical Instrument Segmentation Using Vision-Language Fusion
- arxiv url: http://arxiv.org/abs/2411.12199v1
- Date: Tue, 19 Nov 2024 03:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:42.879032
- Title: RoSIS: Robust Framework for Text-Promptable Surgical Instrument Segmentation Using Vision-Language Fusion
- Title(参考訳): RoSIS: Vision-Language Fusion を用いたテキストプロンプタブル手術機器分割のためのロバストフレームワーク
- Authors: Tae-Min Choi, Juyoun Park,
- Abstract要約: 手術器具のセグメンテーションは、コンピュータによる外科手術に欠かせない課題である。
近年,ターゲットオブジェクトを記述するテキストプロンプトに基づいてマスクを生成する手法が提案されている。
これにより、オブジェクトが画像から欠落している場合でも、関連するテキストプロンプトが提供されるたびにマスクが生成される。
既存の方法では、イメージに存在することがわかっているオブジェクトに対してのみプロンプトを使用することで、これを処理している。
本稿では,全クラスのプロンプトをフォワードし,与えられたテキストプロンプトからオブジェクトの存在を公正な比較のために決定するRobust text-promptable SIS (R-SIS)を提案する。
- 参考スコア(独自算出の注目度): 3.3148826359547514
- License:
- Abstract: Surgical instrument segmentation (SIS) is an essential task in computer-assisted surgeries, with deep learning-based research improving accuracy in complex environments. Recently, text-promptable segmentation methods have been introduced to generate masks based on text prompts describing target objects. However, these methods assume that the object described by a given text prompt exists in the scene. This results in mask generation whenever a related text prompt is provided, even if the object is absent from the image. Existing methods handle this by using prompts only for objects known to be present in the image, which introduces inaccessible information in a vision-based method setting and results in unfair comparisons. For fair comparison, we redefine existing text-promptable SIS settings to robust conditions, called Robust text-promptable SIS (R-SIS), designed to forward prompts of all classes and determine the existence of an object from a given text prompt for the fair comparison. Furthermore, we propose a novel framework, Robust Surgical Instrument Segmentation (RoSIS), which combines visual and language features for promptable segmentation in the R-SIS setting. RoSIS employs an encoder-decoder architecture with a Multi-Modal Fusion Block (MMFB) and a Selective Gate Block (SGB) to achieve balanced integration of vision and language features. Additionally, we introduce an iterative inference strategy that refines segmentation masks in two steps: an initial pass using name-based prompts, followed by a refinement step using location prompts. Experiments on various datasets and settings demonstrate that RoSIS outperforms existing vision-based and promptable methods under robust conditions.
- Abstract(参考訳): 手術器具のセグメンテーション(SIS)は、コンピュータ支援手術において必須の課題であり、深層学習に基づく研究により複雑な環境における精度が向上する。
近年,ターゲットオブジェクトを記述したテキストプロンプトに基づいたマスクを生成するために,テキストプロンプト可能なセグメンテーション手法が導入されている。
しかし、これらの手法は、与えられたテキストプロンプトによって記述されたオブジェクトがシーンに存在すると仮定する。
これにより、オブジェクトが画像から欠落している場合でも、関連するテキストプロンプトが提供されるたびにマスクが生成される。
既存の手法では、画像に存在する物体のみをプロンプトとして処理し、視覚ベースの手法設定でアクセス不能な情報を導入し、不公平な比較を行う。
公正な比較のために、既存のテキストプロンプト可能なSIS設定をロバストテキストプロンプト可能なSIS (R-SIS) と呼ばれる堅牢な条件に再定義し、全てのクラスのプロンプトを転送し、公正な比較のために与えられたテキストプロンプトからオブジェクトの存在を決定する。
さらに,R-SIS設定における視覚的特徴と言語的特徴を組み合わせたロバスト手術機器セグメンテーション(RoSIS)を提案する。
RoSISは、マルチモーダル・フュージョン・ブロック(MMFB)と選択ゲート・ブロック(SGB)を備えたエンコーダ・デコーダアーキテクチャを使用して、視覚と言語機能のバランスの取れた統合を実現している。
さらに,2つのステップでセグメンテーションマスクを洗練させる反復的推論戦略を導入し,名前ベースのプロンプトを用いた初期パスと位置プロンプトを用いた改良ステップを提案する。
さまざまなデータセットと設定の実験では、RoSISがロバストな条件下で既存のビジョンベースおよびプロンプト可能なメソッドより優れていることが示されている。
関連論文リスト
- Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation [41.67544072483324]
Referring Video Object (RVOS) は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメント化することを目的としている。
本稿では,テキスト・アウェア・プロンプト・コントラスト・ラーニング(TAP-CL)を提案する。
提案したTAP-CLにより、GroPromptフレームワークは時間一貫性はあるがテキスト対応の位置プロンプトを生成することができる。
論文 参考訳(メタデータ) (2024-06-18T17:54:17Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - STEP -- Towards Structured Scene-Text Spotting [9.339184886724812]
そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
論文 参考訳(メタデータ) (2023-09-05T16:11:54Z) - ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining [58.241008246380254]
シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
論文 参考訳(メタデータ) (2023-06-21T08:47:20Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。