論文の概要: SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery
- arxiv url: http://arxiv.org/abs/2503.09474v1
- Date: Wed, 12 Mar 2025 15:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:00.860575
- Title: SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery
- Title(参考訳): 手術用VLM-Agent: 垂体手術のための対話型AIコパイロットを目指して
- Authors: Jiayuan Huang, Runlong He, Danyal Z. Khan, Evangelos Mazomenos, Danail Stoyanov, Hani J. Marcus, Matthew J. Clarkson, Mobarakol Islam,
- Abstract要約: 大規模ビジョン言語モデル(VLM)は、動的なタスク計画と予測決定サポートを可能にすることで、有望なソリューションを提供する。
本稿では,画像ガイド下下垂体手術のためのAIコパイロットであるオペレーショナルVLM-Agentについて紹介する。
- 参考スコア(独自算出の注目度): 15.263720052126853
- License:
- Abstract: Image-guided surgery demands adaptive, real-time decision support, yet static AI models struggle with structured task planning and providing interactive guidance. Large vision-language models (VLMs) offer a promising solution by enabling dynamic task planning and predictive decision support. We introduce SurgicalVLM-Agent, an AI co-pilot for image-guided pituitary surgery, capable of conversation, planning, and task execution. The agent dynamically processes surgeon queries and plans the tasks such as MRI tumor segmentation, endoscope anatomy segmentation, overlaying preoperative imaging with intraoperative views, instrument tracking, and surgical visual question answering (VQA). To enable structured task planning, we develop the PitAgent dataset, a surgical context-aware dataset covering segmentation, overlaying, instrument localization, tool tracking, tool-tissue interactions, phase identification, and surgical activity recognition. Additionally, we propose FFT-GaLore, a fast Fourier transform (FFT)-based gradient projection technique for efficient low-rank adaptation, optimizing fine-tuning for LLaMA 3.2 in surgical environments. We validate SurgicalVLM-Agent by assessing task planning and prompt generation on our PitAgent dataset and evaluating zero-shot VQA using a public pituitary dataset. Results demonstrate state-of-the-art performance in task planning and query interpretation, with highly semantically meaningful VQA responses, advancing AI-driven surgical assistance.
- Abstract(参考訳): 画像誘導手術は適応的でリアルタイムな意思決定をサポートすることを要求するが、静的AIモデルは構造化タスク計画と対話的なガイダンスの提供に苦労する。
大規模ビジョン言語モデル(VLM)は、動的なタスク計画と予測決定サポートを可能にすることで、有望なソリューションを提供する。
本稿では,画像ガイド下下垂体手術のためのAIコパイロットであるオペレーショナルVLM-Agentについて紹介する。
このエージェントは、外科的クエリを動的に処理し、MRI腫瘍のセグメンテーション、内視鏡解剖学的セグメンテーション、術中画像による術前画像のオーバーレイ、計器追跡、および手術的視覚的質問応答(VQA)などのタスクを計画する。
構造化タスク計画を実現するために, セグメンテーション, オーバレイ, 機器のローカライゼーション, ツールトラッキング, ツールとタスクのインタラクション, 位相識別, および外科的活動認識を含む, 外科的コンテキスト認識データセットであるPitAgentデータセットを開発した。
また,FFT-GaLoreは高速フーリエ変換(FFT)を用いた低ランク適応のための勾配投影法であり,手術環境におけるLLaMA 3.2の微調整を最適化する。
我々は,PitAgentデータセット上でタスク計画とプロンプト生成を評価し,公開下垂体データセットを用いてゼロショットVQAを評価することにより,手術用VLM-Agentを検証する。
その結果、タスク計画とクエリ解釈における最先端のパフォーマンスを示し、意味論的に意味のあるVQA応答、AIによる外科的補助の進歩を示す。
関連論文リスト
- Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - ViTALS: Vision Transformer for Action Localization in Surgical Nephrectomy [7.145773305697571]
UroSliceと呼ばれる新しい腎摘出術のデータセットを紹介した。
これらのビデオからアクションローカライズを行うために,ViTALSと呼ばれる新しいモデルを提案する。
本モデルでは,階層的拡張時間的畳み込み層と層間残差接続を組み込んで,より微細な時間的相関と粗い粒度を捉える。
論文 参考訳(メタデータ) (2024-05-04T05:07:39Z) - Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T08:38:27Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Temporal Segmentation of Surgical Sub-tasks through Deep Learning with
Multiple Data Sources [14.677001578868872]
本稿では,タスクが進行するにつれて発生する動作や事象に基づいて,統一的な手術状態推定モデルを提案する。
JHU-ISI Gesture and Skill Assessment Working Set(JIGSAWS)と,ロボット内超音波(RIOUS)画像を含むより複雑なデータセットについて検討した。
本モデルでは,89.4%まで優れたフレームワイド状態推定精度を実現し,最先端の手術状態推定モデルを改善する。
論文 参考訳(メタデータ) (2020-02-07T17:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。