論文の概要: GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation
- arxiv url: http://arxiv.org/abs/2603.01108v1
- Date: Sun, 01 Mar 2026 13:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.516716
- Title: GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation
- Title(参考訳): GroundedSurg: 言語定義の手術ツールセグメンテーションのための多段階ベンチマーク
- Authors: Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak, Tavaheed Tariq, Sonia Yadav, Moloud Abdar, Janibul Bashir,
- Abstract要約: GroundedSurgは、最初の言語で条件付き、インスタンスレベルの手術的接地ベンチマークである。
データセットは眼科、腹腔鏡、ロボティクス、オープンプロシージャにまたがっており、様々な機器の種類、撮像条件、手術の複雑さを含んでいる。
- 参考スコア(独自算出の注目度): 1.9981885081131854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinically reliable perception of surgical scenes is essential for advancing intelligent, context-aware intraoperative assistance such as instrument handoff guidance, collision avoidance, and workflow-aware robotic support. Existing surgical tool benchmarks primarily evaluate category-level segmentation, requiring models to detect all instances of predefined instrument classes. However, real-world clinical decisions often require resolving references to a specific instrument instance based on its functional role, spatial relation, or anatomical interaction capabilities not captured by current evaluation paradigms. We introduce GroundedSurg, the first language-conditioned, instance-level surgical grounding benchmark. Each instance pairs a surgical image with a natural-language description targeting a single instrument, accompanied by structured spatial grounding annotations including bounding boxes and point-level anchors. The dataset spans ophthalmic, laparoscopic, robotic, and open procedures, encompassing diverse instrument types, imaging conditions, and operative complexities. By jointly evaluating linguistic reference resolution and pixel-level localization, GroundedSurg enables a systematic and realistic evaluation of vision-language models in clinically realistic multi-instrument scenes. Extensive experiments demonstrate substantial performance gaps across modern segmentation and VLMs, highlighting the urgent need for clinically grounded vision-language reasoning in surgical AI systems. Code and data are publicly available at https://github.com/gaash-lab/GroundedSurg
- Abstract(参考訳): 手術シーンに対する臨床的に信頼性の高い認識は、機器ハンドオフガイダンス、衝突回避、ワークフロー対応ロボットサポートなどの、知的でコンテキスト対応の術中補助に不可欠である。
既存の手術ツールベンチマークは主にカテゴリレベルのセグメンテーションを評価し、事前に定義された機器クラスのすべてのインスタンスをモデルが検出する必要がある。
しかし、現実の臨床的決定は、しばしば、その機能的役割、空間的関係、または現在の評価パラダイムによって捉えられていない解剖学的相互作用能力に基づいて、特定の機器インスタンスへの参照を解決する必要がある。
GroundedSurgは、最初の言語で条件付き、インスタンスレベルの手術的接地ベンチマークである。
各インスタンスは、単一の楽器を対象とした自然言語記述と、バウンディングボックスやポイントレベルのアンカーを含む構造化された空間的接地アノテーションとをペアリングする。
このデータセットは眼科、腹腔鏡、ロボティクス、オープンプロシージャにまたがっており、様々な機器の種類、撮像条件、手術の複雑さを含んでいる。
言語レファレンスと画素レベルのローカライゼーションを共同で評価することにより、臨床的に現実的な多施設シーンにおける視覚言語モデルの体系的および現実的な評価を可能にする。
広汎な実験は、近代的なセグメンテーションとVLM間での大幅なパフォーマンスギャップを示し、外科的AIシステムにおける臨床的根拠に基づく視覚言語推論の緊急の必要性を強調している。
コードとデータはhttps://github.com/gaash-lab/GroundedSurgで公開されている。
関連論文リスト
- VLM-Guided Iterative Refinement for Surgical Image Segmentation with Foundation Models [16.299786004060863]
IR-SISは、自然言語記述を受け入れる外科的画像分割のための反復的精細化システムである。
このシステムは、自然言語のフィードバックを通じて、臨床とループの相互作用をサポートする。
本研究は適応型自己補充機能を備えた最初の言語ベースの外科的セグメンテーションフレームワークを確立する。
論文 参考訳(メタデータ) (2026-02-09T22:36:36Z) - Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion [54.359489807885616]
SurgRefは、自由形式の言語表現を楽器の動きに基礎を置くモーションガイドフレームワークである。
SurgRefをトレーニングし,評価するために,高密度時間マスクとリッチモーション表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
論文 参考訳(メタデータ) (2026-01-18T02:14:08Z) - SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding [8.20483591990742]
本稿では,対話型マルチモーダル大言語モデルの開発と評価のための統一ベンチマークであるSurgMLLMBenchを紹介する。
ピクセルレベルの機器セグメンテーションマスクと、腹腔鏡、ロボット支援、マイクロサージカルドメインにまたがる構造化VQAアノテーションを統合している。
ドメイン間で一貫したパフォーマンスを実現し、目に見えないデータセットに効果的に一般化する。
論文 参考訳(メタデータ) (2025-11-26T12:44:51Z) - SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation [4.97436124491469]
本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。
このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。
楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
論文 参考訳(メタデータ) (2025-09-12T23:36:52Z) - SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting [45.16104996137126]
本稿では,このギャップを埋めるために,新しいテキストプロンプタブルなガウス分割法であるSurgTPGSを提案する。
本研究では,意味的特徴のシームレスな変形を捉え,テクスチャと意味的特徴の双方をより正確に再構築する意味認識変形追跡法を提案する。
本研究では,SurgTPGSの最先端技術に対する優位性を示すために,実世界の2つの外科的データセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2025-06-29T15:55:01Z) - ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection [54.270188252068145]
ProstaTDは、ロボット補助前立腺切除術の技術的要求領域から開発された、外科的三重項検出のための大規模なデータセットである。
このデータセットは、71,775の動画フレームと196,490の注釈付きトリプルトインスタンスで構成され、複数の機関で実施された21の手術から収集された。
ProstaTDは、これまでで最大かつ最も多様な3重項データセットであり、単純な分類から正確な空間的境界と時間的境界を持つ完全な検出へとフィールドを移動している。
論文 参考訳(メタデータ) (2025-06-01T19:29:39Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - Rethinking Text-Promptable Surgical Instrument Segmentation with Robust Framework [3.3148826359547514]
我々はRobust text-promptable surgery Instrument (R-SIS)と呼ばれるテキストプロンプタブルなタスクを開発する。
R-SISは、目に見える楽器を参照し、そのような楽器がシーンに明示的に存在している場合にのみマスクを生成するプロンプトを区別する必要がある。
手術用ビデオデータセットを用いたR-SISプロトコルに基づく既存のセグメンテーション手法の評価を行った。
論文 参考訳(メタデータ) (2024-11-19T03:30:44Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。