論文の概要: Towards Unified Surgical Scene Understanding:Bridging Reasoning and Grounding via MLLMs
- arxiv url: http://arxiv.org/abs/2605.13530v1
- Date: Wed, 13 May 2026 13:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.078377
- Title: Towards Unified Surgical Scene Understanding:Bridging Reasoning and Grounding via MLLMs
- Title(参考訳): 統一手術シーン理解に向けて:MLLMによるブリッジ推論と接地
- Authors: Jincai Huang, Shihao Zou, Yuchen Guo, Jingjing Li, Wei Ji, Kai Wang, Shanshan Wang, Weixin Si,
- Abstract要約: SurgMLLMは統一的な手術シーン理解フレームワークである。
単一のモデル内で、ハイレベルな推論と低レベルなビジュアルグラウンドをブリッジする。
大規模な実験により、SurgMLLMは外科的シーン理解を著しく前進させることが示された。
- 参考スコア(独自算出の注目度): 32.18549469001096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical scene understanding is a cornerstone of computer-assisted intervention. While recent advances, particularly in surgical image segmentation, have driven progress, real-world clinical applications require a more holistic understanding that jointly captures procedural context, semantic reasoning, and precise visual grounding. However, existing approaches typically address these components in isolation, leading to fragmented representations and limited semantic consistency. To address this limitation, we propose SurgMLLM, a unified surgical scene understanding framework that bridges high-level reasoning and low-level visual grounding within a single model. Given surgical videos, SurgMLLM fine-tunes a multimodal large language model (MLLM) to support structured interpretability reasoning, which is used to jointly model phases, instrument-verb-target (IVT) triplets, and triplet-entity segmentation tokens. These tokens are then temporally aggregated and serve as prompts for a segmentation network, enabling accurate pixel-wise grounding of triplet instruments and targets. The entire framework is trained end-to-end with a unified objective that couples language-based reasoning supervision with visual grounding losses, promoting coherent cross-task learning and clinically consistent scene representations. To facilitate unified evaluation, we introduce CholecT45-Scene, extending CholecT45 dataset with 64,299 frames of pixel-level mask annotations for instruments and targets, aligned with existing triplet labels. Extensive experiments show that SurgMLLM significantly advances surgical scene understanding, improving the primary triplet recognition metric AP_IVT from 40.7% to 46.0% and consistently outperforming prior methods in phase recognition and segmentation. These results highlight the effectiveness of unified reasoning-and-grounding for reliable, context-aware surgical assistance.
- Abstract(参考訳): 手術シーンの理解はコンピュータによる介入の基礎となる。
最近の進歩、特に手術画像のセグメンテーションでは進歩が進んでいるが、実際の臨床応用には、手続き的文脈、意味的推論、正確な視覚的接地を共同で捉えるためのより包括的な理解が必要である。
しかし、既存のアプローチは一般的にこれらのコンポーネントを分離して扱い、断片化された表現と限定的なセマンティック一貫性をもたらす。
この制限に対処するため,SurgMLLMを提案する。SurgMLLMは単一のモデル内で高レベルな推論と低レベルな視覚的グラウンドをブリッジする,統一的な手術シーン理解フレームワークである。
SurgMLLMは、外科的ビデオが与えられた場合、多モーダルな大言語モデル(MLLM)を微調整し、構造的解釈可能性推論をサポートする。
これらのトークンは時間的に集約され、セグメンテーションネットワークのプロンプトとして機能し、3重楽器とターゲットの正確なピクセル単位のグラウンドを可能にする。
フレームワーク全体がエンドツーエンドにトレーニングされ、言語ベースの推論監督と視覚的基盤的損失を結合し、一貫性のあるクロスタスク学習を促進し、臨床的に一貫したシーン表現を促進する。
統一評価を容易にするために,ColecT45データセットを64,299フレームの画素レベルのマスクアノテーションで拡張し,既存のトリプルトラベルに合わせるColecT45-Sceneを導入する。
大規模な実験により、SurgMLLMは外科的シーン理解を著しく向上させ、一次三重項認識基準AP_IVTを40.7%から46.0%に改善し、相認識と分節における先行手法を一貫して上回っていることが示されている。
これらの結果は, 信頼性, コンテキスト認識型手術支援における統一的推論・グラウンド化の有効性を浮き彫りにした。
関連論文リスト
- From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。
本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文 参考訳(メタデータ) (2026-03-18T00:22:15Z) - GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation [1.9981885081131854]
GroundedSurgは、最初の言語で条件付き、インスタンスレベルの手術的接地ベンチマークである。
データセットは眼科、腹腔鏡、ロボティクス、オープンプロシージャにまたがっており、様々な機器の種類、撮像条件、手術の複雑さを含んでいる。
論文 参考訳(メタデータ) (2026-03-01T13:49:53Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Grounding Surgical Action Triplets with Instrument Instance Segmentation: A Dataset and Target-Aware Fusion Approach [16.569535111037315]
CholecTriplet-Segは3万以上の注釈付きフレームを含む大規模データセットで、アクション動詞と解剖学的ターゲットアノテーションと、楽器のインスタンスマスクをリンクし、強く監督されたインスタンスレベルの三重項グラウンドと評価のための最初のベンチマークを確立する。
また,Mask2Formerを拡張した新たなアーキテクチャであるTargetFusionNetを提案する。
論文 参考訳(メタデータ) (2025-11-01T17:45:40Z) - Surgical Video Understanding with Label Interpolation [3.880707330499936]
ロボット補助手術 (RAS) は, 患者の回復を促進するとともに, 外科医の負担を軽減し, 近代的な手術において重要なパラダイムとなっている。
これまでの研究は主にシングルタスクのアプローチに焦点が当てられていたが、実際の手術シーンには複雑な時間的ダイナミクスと多様な楽器の相互作用が含まれる。
本稿では,光フローベースセグメンテーションラベルとマルチタスク学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T08:49:07Z) - MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision [16.34920560168635]
我々はまず,新しい視覚言語タスクであるUMRG(Unified Medical Reasoning Grounding)を定義した。
第二にU-MRG-14Kは、暗黙の臨床的クエリと推論トレースを伴い、画素レベルのマスクを特徴とする14Kサンプルのデータセットである。
第3に、セグメンテーションから推論を明確に分離するモジュラーフレームワークであるMedReasonerを紹介します。
論文 参考訳(メタデータ) (2025-08-11T16:59:06Z) - ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection [54.270188252068145]
ProstaTDは、ロボット補助前立腺切除術の技術的要求領域から開発された、外科的三重項検出のための大規模なデータセットである。
このデータセットは、71,775の動画フレームと196,490の注釈付きトリプルトインスタンスで構成され、複数の機関で実施された21の手術から収集された。
ProstaTDは、これまでで最大かつ最も多様な3重項データセットであり、単純な分類から正確な空間的境界と時間的境界を持つ完全な検出へとフィールドを移動している。
論文 参考訳(メタデータ) (2025-06-01T19:29:39Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。
本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。
提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。