論文の概要: SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation
- arxiv url: http://arxiv.org/abs/2509.10748v1
- Date: Fri, 12 Sep 2025 23:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.760837
- Title: SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation
- Title(参考訳): SCOPE:手術シーンセグメンテーションのための音声誘導協調知覚フレームワーク
- Authors: Jecia Z. Y. Mao, Francis X Creighton, Russell H Taylor, Manish Sahu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。
このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。
楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
- 参考スコア(独自算出の注目度): 4.97436124491469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate segmentation and tracking of relevant elements of the surgical scene is crucial to enable context-aware intraoperative assistance and decision making. Current solutions remain tethered to domain-specific, supervised models that rely on labeled data and required domain-specific data to adapt to new surgical scenarios and beyond predefined label categories. Recent advances in prompt-driven vision foundation models (VFM) have enabled open-set, zero-shot segmentation across heterogeneous medical images. However, dependence of these models on manual visual or textual cues restricts their deployment in introperative surgical settings. We introduce a speech-guided collaborative perception (SCOPE) framework that integrates reasoning capabilities of large language model (LLM) with perception capabilities of open-set VFMs to support on-the-fly segmentation, labeling and tracking of surgical instruments and anatomy in intraoperative video streams. A key component of this framework is a collaborative perception agent, which generates top candidates of VFM-generated segmentation and incorporates intuitive speech feedback from clinicians to guide the segmentation of surgical instruments in a natural human-machine collaboration paradigm. Afterwards, instruments themselves serve as interactive pointers to label additional elements of the surgical scene. We evaluated our proposed framework on a subset of publicly available Cataract1k dataset and an in-house ex-vivo skull-base dataset to demonstrate its potential to generate on-the-fly segmentation and tracking of surgical scene. Furthermore, we demonstrate its dynamic capabilities through a live mock ex-vivo experiment. This human-AI collaboration paradigm showcase the potential of developing adaptable, hands-free, surgeon-centric tools for dynamic operating-room environments.
- Abstract(参考訳): 手術シーンの正確なセグメンテーションと追跡は、コンテキスト対応の術中補助と意思決定を可能にするために重要である。
現在のソリューションは、ラベル付きデータと、新しい手術シナリオや定義済みのラベルカテゴリに適応するために、ドメイン固有のデータに依存する、ドメイン固有の教師付きモデルに結びついています。
プロンプト駆動型視覚基礎モデル(VFM)の最近の進歩は、異種医療画像間のオープンセット、ゼロショットセグメンテーションを可能にしている。
しかし、これらのモデルが手動の視覚的・テキスト的手がかりに依存しているため、術中手術環境への展開が制限される。
我々は,大規模言語モデル(LLM)の推論能力とオープンセットVFMの認識能力を統合し,術中ビデオストリームにおける手術器具や解剖の分類・ラベル付け・追跡をサポートする音声誘導協調認識(SCOPE)フレームワークを提案する。
このフレームワークの重要な構成要素は協調認識エージェントであり、VFM生成セグメンテーションの最上位候補を生成し、臨床医からの直感的な音声フィードバックを取り入れ、自然な人間と機械の協調パラダイムで外科器具のセグメンテーションを導く。
その後、楽器自体がインタラクティブなポインタとして機能し、手術シーンの付加的な要素をラベル付けする。
提案するフレームワークを,市販の Cataract1k データセットのサブセットと自家製の頭蓋骨ベースデータセットを用いて評価し,オンザフライセグメンテーションと手術シーンの追跡の可能性を示した。
さらに,ライブモック前バイブ実験を通じて,その動的能力を実演する。
この人間とAIのコラボレーションパラダイムは、動的な手術室環境のための適応的でハンズフリーで外科医中心のツールを開発する可能性を示している。
関連論文リスト
- Probabilistic Task Parameterization of Tool-Tissue Interaction via Sparse Landmarks Tracking in Robotic Surgery [5.075735148466963]
ロボット手術におけるツールとタスクの相互作用のモデルは、変形可能な組織の正確な追跡と外科領域の知識の統合を必要とする。
本稿では,キーポイントトラッキングと確率的モデリングを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T21:28:48Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。
本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。
提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。