論文の概要: VLM-Guided Iterative Refinement for Surgical Image Segmentation with Foundation Models
- arxiv url: http://arxiv.org/abs/2602.09252v1
- Date: Mon, 09 Feb 2026 22:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.270962
- Title: VLM-Guided Iterative Refinement for Surgical Image Segmentation with Foundation Models
- Title(参考訳): ファンデーションモデルを用いた手術画像分割のためのVLMガイドによる反復的再構成
- Authors: Ange Lou, Yamin Li, Qi Chang, Nan Xi, Luyuan Xie, Zichao Li, Tianyu Luan,
- Abstract要約: IR-SISは、自然言語記述を受け入れる外科的画像分割のための反復的精細化システムである。
このシステムは、自然言語のフィードバックを通じて、臨床とループの相互作用をサポートする。
本研究は適応型自己補充機能を備えた最初の言語ベースの外科的セグメンテーションフレームワークを確立する。
- 参考スコア(独自算出の注目度): 16.299786004060863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical image segmentation is essential for robot-assisted surgery and intraoperative guidance. However, existing methods are constrained to predefined categories, produce one-shot predictions without adaptive refinement, and lack mechanisms for clinician interaction. We propose IR-SIS, an iterative refinement system for surgical image segmentation that accepts natural language descriptions. IR-SIS leverages a fine-tuned SAM3 for initial segmentation, employs a Vision-Language Model to detect instruments and assess segmentation quality, and applies an agentic workflow that adaptively selects refinement strategies. The system supports clinician-in-the-loop interaction through natural language feedback. We also construct a multi-granularity language-annotated dataset from EndoVis2017 and EndoVis2018 benchmarks. Experiments demonstrate state-of-the-art performance on both in-domain and out-of-distribution data, with clinician interaction providing additional improvements. Our work establishes the first language-based surgical segmentation framework with adaptive self-refinement capabilities.
- Abstract(参考訳): 手術画像のセグメンテーションはロボット支援手術と術中指導に不可欠である。
しかし、既存の手法は事前に定義されたカテゴリに制約され、適応的な改善を伴わずにワンショットの予測が生成され、臨床医の相互作用のメカニズムが欠如している。
本稿では,自然言語記述を受け入れる外科的画像分割のための反復的精細化システムIR-SISを提案する。
IR-SISは、初期セグメンテーションのために微調整されたSAM3を利用し、Vision-Language Modelを使用して機器を検出し、セグメンテーションの品質を評価し、適応的に洗練戦略を選択するエージェントワークフローを適用している。
このシステムは、自然言語のフィードバックを通じて、臨床とループの相互作用をサポートする。
また,EndoVis2017とEndoVis2018ベンチマークから,多言語対応データセットを構築した。
実験では、ドメイン内およびアウト・オブ・ディストリビューションデータの両方で最先端のパフォーマンスを示す。
本研究は適応型自己補充機能を備えた最初の言語ベースの外科的セグメンテーションフレームワークを確立する。
関連論文リスト
- Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion [54.359489807885616]
SurgRefは、自由形式の言語表現を楽器の動きに基礎を置くモーションガイドフレームワークである。
SurgRefをトレーニングし,評価するために,高密度時間マスクとリッチモーション表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
論文 参考訳(メタデータ) (2026-01-18T02:14:08Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding [8.20483591990742]
本稿では,対話型マルチモーダル大言語モデルの開発と評価のための統一ベンチマークであるSurgMLLMBenchを紹介する。
ピクセルレベルの機器セグメンテーションマスクと、腹腔鏡、ロボット支援、マイクロサージカルドメインにまたがる構造化VQAアノテーションを統合している。
ドメイン間で一貫したパフォーマンスを実現し、目に見えないデータセットに効果的に一般化する。
論文 参考訳(メタデータ) (2025-11-26T12:44:51Z) - SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation [4.97436124491469]
本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。
このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。
楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
論文 参考訳(メタデータ) (2025-09-12T23:36:52Z) - LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。
本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。
我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文 参考訳(メタデータ) (2024-09-07T08:16:00Z) - PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models [12.895542069443438]
セグメンテーションの柔軟性を高めるために,従来のタスクトークンと並行して,LLM(Large Language Model)を通じて様々なタスクプロンプトを導入する。
コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために微調整言語プロンプトを用いた計算効率の高いパイプラインを構築し,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較し,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計する。
論文 参考訳(メタデータ) (2024-07-13T18:51:52Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - Hierarchical Semi-Supervised Learning Framework for Surgical Gesture
Segmentation and Recognition Based on Multi-Modality Data [2.8770761243361593]
多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。
トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。
提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
論文 参考訳(メタデータ) (2023-07-31T21:17:59Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。