論文の概要: Surgical Agent Orchestration Platform for Voice-directed Patient Data Interaction
- arxiv url: http://arxiv.org/abs/2511.07392v2
- Date: Wed, 12 Nov 2025 01:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:53.062859
- Title: Surgical Agent Orchestration Platform for Voice-directed Patient Data Interaction
- Title(参考訳): 音声指向型患者データインタラクションのための外科的エージェントオーケストレーションプラットフォーム
- Authors: Hyeryun Park, Byung Mo Gu, Jun Hee Lee, Byeong Hyeon Choi, Sekeun Kim, Hyun Koo Kim, Kyungsang Kim,
- Abstract要約: da Vinciロボット手術では、外科医の手と目が完全に関与しているため、中断することなくマルチモーダルな患者のデータにアクセスし操作することは困難である。
大規模言語モデル(LLM)によって駆動されるオーケストレーションエージェントと3つのタスク固有エージェントからなる階層型マルチエージェントフレームワーク上に構築された音声指向型手術エージェントオーケストレータプラットフォーム(SAOP)を提案する。
SAOPは240の音声コマンドに対して高い精度と成功率を達成する一方、LLMベースのエージェントは音声認識エラーや多様な、曖昧なフリーフォームコマンドに対する堅牢性を改善し、最小侵襲のda Vinciロボット手術をサポートする可能性を示している。
- 参考スコア(独自算出の注目度): 1.1750845946120834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In da Vinci robotic surgery, surgeons' hands and eyes are fully engaged in the procedure, making it difficult to access and manipulate multimodal patient data without interruption. We propose a voice-directed Surgical Agent Orchestrator Platform (SAOP) built on a hierarchical multi-agent framework, consisting of an orchestration agent and three task-specific agents driven by Large Language Models (LLMs). These LLM-based agents autonomously plan, refine, validate, and reason to map voice commands into specific tasks such as retrieving clinical information, manipulating CT scans, or navigating 3D anatomical models on the surgical video. We also introduce a Multi-level Orchestration Evaluation Metric (MOEM) to comprehensively assess the performance and robustness from command-level and category-level perspectives. The SAOP achieves high accuracy and success rates across 240 voice commands, while LLM-based agents improve robustness against speech recognition errors and diverse or ambiguous free-form commands, demonstrating strong potential to support minimally invasive da Vinci robotic surgery.
- Abstract(参考訳): da Vinciロボット手術では、外科医の手と目が完全に手術に携わっているため、中断することなくマルチモーダルな患者のデータにアクセスし操作することは困難である。
本稿では,大規模言語モデル(LLM)によって駆動されるオーケストレーションエージェントと3つのタスク固有エージェントからなる階層型マルチエージェントフレームワーク上に構築された音声指向型手術エージェントオーケストレータプラットフォーム(SAOP)を提案する。
これらのLSMベースのエージェントは、臨床情報の検索、CTスキャンの操作、手術ビデオ上の3D解剖モデルの作成など、音声コマンドを特定のタスクに自動で計画、洗練、検証、および理由付けを行う。
また、コマンドレベルとカテゴリレベルの観点から、パフォーマンスとロバスト性を総合的に評価するマルチレベルオーケストレーション評価指標(MOEM)も導入する。
SAOPは240の音声コマンドに対して高い精度と成功率を達成する一方、LLMベースのエージェントは音声認識エラーや多様な、曖昧なフリーフォームコマンドに対する堅牢性を改善し、最小侵襲のda Vinciロボット手術をサポートする可能性を示している。
関連論文リスト
- SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Towards user-centered interactive medical image segmentation in VR with an assistive AI agent [0.5578116134031106]
本稿では,3次元医療概念のローカライズ,セグメンテーション,可視化を支援する,医療用VR用対話型AIエージェントSAMIRAを提案する。
このシステムは、患者固有の解剖学的理解を高めるために、セグメント化された病理の真の3次元可視化もサポートする。
ユーザスタディでは、高いユーザビリティスコア(SUS=90.0$pm$9.0)、全体のタスク負荷の低減、提案されたVRシステムのガイダンスの強力なサポートが示された。
論文 参考訳(メタデータ) (2025-05-12T03:47:05Z) - SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery [15.263720052126853]
大規模ビジョン言語モデル(VLM)は、動的なタスク計画と予測決定サポートを可能にすることで、有望なソリューションを提供する。
本稿では,画像ガイド下下垂体手術のためのAIコパイロットであるオペレーショナルVLM-Agentについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T15:30:39Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - Transforming Surgical Interventions with Embodied Intelligence for Ultrasound Robotics [24.014073238400137]
本稿では,超音波ロボットと大規模言語モデル(LLM)とドメイン固有知識強化を組み合わせた,新しい超音波身体情報システムを提案する。
まず、LLMを超音波ロボットと統合して、医師の言葉による指示を正確に動作計画に解釈する。
以上の結果から,提案システムは超音波スキャンの効率と品質を向上し,自律型医療スキャン技術のさらなる進歩の道を開くことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T14:22:16Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。