論文の概要: Speak, Segment, Track, Navigate: An Interactive System for Video-Guided Skull-Base Surgery
- arxiv url: http://arxiv.org/abs/2603.16024v1
- Date: Tue, 17 Mar 2026 00:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.050568
- Title: Speak, Segment, Track, Navigate: An Interactive System for Video-Guided Skull-Base Surgery
- Title(参考訳): Speak, Segment, Track, Navigate: ビデオガイド付きスカルベース手術のためのインタラクティブシステム
- Authors: Jecia Z. Y. Mao, Francis X. Creighton, Russell H. Taylor, Manish Sahu,
- Abstract要約: 本稿では, 音声ガイド下頭蓋底外科手術のためのエンボディエージェントフレームワークについて紹介する。
提案システムは,実時間映像ストリーム上での自然言語インタラクションとリアルタイム視覚認識を直接統合する。
ビデオ誘導頭蓋底手術症例において提案システムを評価し,その追跡性能を市販の光追跡システムと比較した。
- 参考スコア(独自算出の注目度): 4.97436124491469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a speech-guided embodied agent framework for video-guided skull base surgery that dynamically executes perception and image-guidance tasks in response to surgeon queries. The proposed system integrates natural language interaction with real-time visual perception directly on live intraoperative video streams, thereby enabling surgeons to request computational assistance without disengaging from operative tasks. Unlike conventional image-guided navigation systems that rely on external optical trackers and additional hardware setup, the framework operates purely on intraoperative video. The system begins with interactive segmentation and labeling of the surgical instrument. The segmented instrument is then used as a spatial anchor that is autonomously tracked in the video stream to support downstream workflows, including anatomical segmentation, interactive registration of preoperative 3D models, monocular video-based estimation of the surgical tool pose, and support image guidance through real-time anatomical overlays.We evaluate the proposed system in video-guided skull base surgery scenarios and benchmark its tracking performance against a commercially available optical tracking system. Results demonstrate that speech-guided embodied agents can achieve competitive spatial accuracy while improving workflow integration and enabling rapid deployment of video-guided surgical systems.
- Abstract(参考訳): 外科的クエリに応答して動的に知覚および画像誘導タスクを実行する,ビデオガイド下頭蓋底手術のための音声誘導型エンボディエージェントフレームワークを提案する。
提案システムは,実動映像ストリームに直接リアルタイムの視覚知覚と自然言語インタラクションを統合することで,手術作業から切り離すことなく,外科医が計算支援を要求できるようにする。
外部光学トラッカーと追加のハードウェア設定に依存する従来の画像誘導ナビゲーションシステムとは異なり、このフレームワークは純粋に術中のビデオで動作する。
システムは、インタラクティブなセグメンテーションと手術器具のラベル付けから始まる。
このセグメンテッド・アンカーは、映像ストリーム内で自律的に追跡される空間アンカーとして使用され、解剖学的セグメンテーション、術前の3Dモデルのインタラクティブな登録、手術ツールのポーズのモノクロビデオベース推定、リアルタイム解剖学的オーバーレイによる画像誘導など、下流のワークフローをサポートする。
その結果,音声誘導型エンボディードエージェントは,ワークフロー統合を改善し,映像誘導型手術システムの迅速な展開を可能にしながら,競争力のある空間精度を実現することができた。
関連論文リスト
- Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality [40.023882327049684]
手術ナビゲーションは、患者の解剖学と手術器具のポーズを推定することでリアルタイムのガイダンスを提供する。
既存のアプローチのほとんどは明確な視線に依存しており、動的な手術室環境では維持が困難である。
本研究は,動的なシーングラフ表現内に複数の感覚モーダルを融合させることにより,閉塞下での手術器具の追跡を行う枠組みを導入する。
論文 参考訳(メタデータ) (2026-03-09T05:37:49Z) - Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion [54.359489807885616]
SurgRefは、自由形式の言語表現を楽器の動きに基礎を置くモーションガイドフレームワークである。
SurgRefをトレーニングし,評価するために,高密度時間マスクとリッチモーション表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
論文 参考訳(メタデータ) (2026-01-18T02:14:08Z) - Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes [0.5146940511526402]
本研究は,3次元音響情報を統合することにより,手術シーンの表現性を高めることを目的とする。
手術シーンの4次元映像表現を生成するための新しい枠組みを提案する。
提案するフレームワークにより,コンテキスト理解の充実が図られ,今後のインテリジェントな手術システムの基礎となる。
論文 参考訳(メタデータ) (2025-10-28T11:55:45Z) - SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation [4.97436124491469]
本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。
このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。
楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
論文 参考訳(メタデータ) (2025-09-12T23:36:52Z) - Online 3D reconstruction and dense tracking in endoscopic videos [5.667206318889122]
立体内視鏡画像データからの3次元シーン再構成は外科手術の進行に不可欠である。
外科的シーン理解と介入支援を目的としたオンライン3次元シーン再構築と追跡のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-09T19:58:42Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Live image-based neurosurgical guidance and roadmap generation using
unsupervised embedding [53.992124594124896]
本稿では,注釈付き脳外科ビデオの大規模なデータセットを活用するライブ画像のみのガイダンスを提案する。
生成されたロードマップは、トレーニングセットの手術で取られた一般的な解剖学的パスをエンコードする。
166例の腹腔鏡下腺摘出術を施行し,本法の有効性について検討した。
論文 参考訳(メタデータ) (2023-03-31T12:52:24Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Using Computer Vision to Automate Hand Detection and Tracking of Surgeon
Movements in Videos of Open Surgery [8.095095522269352]
コンピュータビジョンの進歩を活かし,外科手術の映像解析に自動的アプローチを導入する。
オブジェクト検出のための最先端の畳み込みニューラルネットワークアーキテクチャを使用して、開手術ビデオの操作手を検出する。
本モデルの操作手の空間的検出は、既存の手検出データセットを用いて達成した検出を大幅に上回る。
論文 参考訳(メタデータ) (2020-12-13T03:10:09Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。