論文の概要: SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery
- arxiv url: http://arxiv.org/abs/2503.09474v1
- Date: Wed, 12 Mar 2025 15:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.82245
- Title: SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery
- Title(参考訳): 手術用VLM-Agent: 垂体手術のための対話型AIコパイロットを目指して
- Authors: Jiayuan Huang, Runlong He, Danyal Z. Khan, Evangelos Mazomenos, Danail Stoyanov, Hani J. Marcus, Matthew J. Clarkson, Mobarakol Islam,
- Abstract要約: 大規模ビジョン言語モデル(VLM)は、動的なタスク計画と予測決定サポートを可能にすることで、有望なソリューションを提供する。
本稿では,画像ガイド下下垂体手術のためのAIコパイロットであるオペレーショナルVLM-Agentについて紹介する。
- 参考スコア(独自算出の注目度): 15.263720052126853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-guided surgery demands adaptive, real-time decision support, yet static AI models struggle with structured task planning and providing interactive guidance. Large vision-language models (VLMs) offer a promising solution by enabling dynamic task planning and predictive decision support. We introduce SurgicalVLM-Agent, an AI co-pilot for image-guided pituitary surgery, capable of conversation, planning, and task execution. The agent dynamically processes surgeon queries and plans the tasks such as MRI tumor segmentation, endoscope anatomy segmentation, overlaying preoperative imaging with intraoperative views, instrument tracking, and surgical visual question answering (VQA). To enable structured task planning, we develop the PitAgent dataset, a surgical context-aware dataset covering segmentation, overlaying, instrument localization, tool tracking, tool-tissue interactions, phase identification, and surgical activity recognition. Additionally, we propose FFT-GaLore, a fast Fourier transform (FFT)-based gradient projection technique for efficient low-rank adaptation, optimizing fine-tuning for LLaMA 3.2 in surgical environments. We validate SurgicalVLM-Agent by assessing task planning and prompt generation on our PitAgent dataset and evaluating zero-shot VQA using a public pituitary dataset. Results demonstrate state-of-the-art performance in task planning and query interpretation, with highly semantically meaningful VQA responses, advancing AI-driven surgical assistance.
- Abstract(参考訳): 画像誘導手術は適応的でリアルタイムな意思決定をサポートすることを要求するが、静的AIモデルは構造化タスク計画と対話的なガイダンスの提供に苦労する。
大規模ビジョン言語モデル(VLM)は、動的なタスク計画と予測決定サポートを可能にすることで、有望なソリューションを提供する。
本稿では,画像ガイド下下垂体手術のためのAIコパイロットであるオペレーショナルVLM-Agentについて紹介する。
このエージェントは、外科的クエリを動的に処理し、MRI腫瘍のセグメンテーション、内視鏡解剖学的セグメンテーション、術中画像による術前画像のオーバーレイ、計器追跡、および手術的視覚的質問応答(VQA)などのタスクを計画する。
構造化タスク計画を実現するために, セグメンテーション, オーバレイ, 機器のローカライゼーション, ツールトラッキング, ツールとタスクのインタラクション, 位相識別, および外科的活動認識を含む, 外科的コンテキスト認識データセットであるPitAgentデータセットを開発した。
また,FFT-GaLoreは高速フーリエ変換(FFT)を用いた低ランク適応のための勾配投影法であり,手術環境におけるLLaMA 3.2の微調整を最適化する。
我々は,PitAgentデータセット上でタスク計画とプロンプト生成を評価し,公開下垂体データセットを用いてゼロショットVQAを評価することにより,手術用VLM-Agentを検証する。
その結果、タスク計画とクエリ解釈における最先端のパフォーマンスを示し、意味論的に意味のあるVQA応答、AIによる外科的補助の進歩を示す。
関連論文リスト
- Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence [16.584722724845182]
手術インテリジェンスにおける視覚-言語モデルの統合は、幻覚、ドメイン知識のギャップ、タスク相互依存性の限定的な理解によって妨げられている。
本稿では,CoT駆動型マルチエージェントフレームワークであるSurgRAWについて紹介する。
論文 参考訳(メタデータ) (2025-03-13T11:23:13Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T08:38:27Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Temporal Segmentation of Surgical Sub-tasks through Deep Learning with
Multiple Data Sources [14.677001578868872]
本稿では,タスクが進行するにつれて発生する動作や事象に基づいて,統一的な手術状態推定モデルを提案する。
JHU-ISI Gesture and Skill Assessment Working Set(JIGSAWS)と,ロボット内超音波(RIOUS)画像を含むより複雑なデータセットについて検討した。
本モデルでは,89.4%まで優れたフレームワイド状態推定精度を実現し,最先端の手術状態推定モデルを改善する。
論文 参考訳(メタデータ) (2020-02-07T17:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。