論文の概要: SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence
- arxiv url: http://arxiv.org/abs/2503.10265v1
- Date: Thu, 13 Mar 2025 11:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:39.397822
- Title: SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence
- Title(参考訳): SurgRAW: 外科的インテリジェンスのためのチェーンオブソート推論によるマルチエージェントワークフロー
- Authors: Chang Han Low, Ziyue Wang, Tianyi Zhang, Zhitao Zeng, Zhu Zhuo, Evangelos B. Mazomenos, Yueming Jin,
- Abstract要約: 手術インテリジェンスにおける視覚-言語モデルの統合は、幻覚、ドメイン知識のギャップ、タスク相互依存性の限定的な理解によって妨げられている。
本稿では,CoT駆動型マルチエージェントフレームワークであるSurgRAWについて紹介する。
- 参考スコア(独自算出の注目度): 16.584722724845182
- License:
- Abstract: Integration of Vision-Language Models (VLMs) in surgical intelligence is hindered by hallucinations, domain knowledge gaps, and limited understanding of task interdependencies within surgical scenes, undermining clinical reliability. While recent VLMs demonstrate strong general reasoning and thinking capabilities, they still lack the domain expertise and task-awareness required for precise surgical scene interpretation. Although Chain-of-Thought (CoT) can structure reasoning more effectively, current approaches rely on self-generated CoT steps, which often exacerbate inherent domain gaps and hallucinations. To overcome this, we present SurgRAW, a CoT-driven multi-agent framework that delivers transparent, interpretable insights for most tasks in robotic-assisted surgery. By employing specialized CoT prompts across five tasks: instrument recognition, action recognition, action prediction, patient data extraction, and outcome assessment, SurgRAW mitigates hallucinations through structured, domain-aware reasoning. Retrieval-Augmented Generation (RAG) is also integrated to external medical knowledge to bridge domain gaps and improve response reliability. Most importantly, a hierarchical agentic system ensures that CoT-embedded VLM agents collaborate effectively while understanding task interdependencies, with a panel discussion mechanism promotes logical consistency. To evaluate our method, we introduce SurgCoTBench, the first reasoning-based dataset with structured frame-level annotations. With comprehensive experiments, we demonstrate the effectiveness of proposed SurgRAW with 29.32% accuracy improvement over baseline VLMs on 12 robotic procedures, achieving the state-of-the-art performance and advancing explainable, trustworthy, and autonomous surgical assistance.
- Abstract(参考訳): 手術インテリジェンスにおける視覚言語モデル(VLM)の統合は、幻覚、ドメイン知識のギャップ、手術シーンにおけるタスク相互依存性の限定的理解によって妨げられ、臨床的信頼性を損なう。
近年のVLMは、一般的な推論や思考能力が強いが、正確な手術シーンの解釈に必要な専門知識やタスク認識能力はいまだに欠如している。
CoT(Chain-of-Thought)はより効果的に推論を構造化できるが、現在のアプローチは自己生成のCoTステップに依存しており、しばしば固有のドメインギャップと幻覚を悪化させる。
そこで我々は,CoT駆動型マルチエージェントフレームワークであるSurgRAWを紹介した。
計器認識、行動認識、行動予測、患者データ抽出、結果評価の5つのタスクに専門的なCoTプロンプトを適用することで、SurgRAWは構造化されたドメイン認識推論を通じて幻覚を緩和する。
Retrieval-Augmented Generation (RAG) は、ドメインギャップを埋め、応答信頼性を向上させるために、外部の医療知識と統合されている。
最も重要なことは、階層的なエージェントシステムによって、CoTに埋め込まれたVLMエージェントが、タスク間の依存性を理解しながら効果的に協調することが保証され、パネルディスカッション機構が論理的一貫性を促進することである。
提案手法を評価するために,構造化フレームレベルのアノテーションを持つ最初の推論ベースデータセットであるSurgCoTBenchを紹介する。
総合的な実験により,12のロボット手術における基準VLMよりも29.32%精度が向上したSurgRAWの有効性が実証された。
関連論文リスト
- Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Transparent AI: Developing an Explainable Interface for Predicting Postoperative Complications [1.6609516435725236]
我々は5つの重要な質問に答えるために設計された説明可能なAI(XAI)フレームワークを提案する。
我々は,LIME(Local Interpretable Model-Agnostic Explanations)などの様々な手法を取り入れた。
術後合併症の予測を目的としたXAIインタフェースの試作について紹介した。
論文 参考訳(メタデータ) (2024-04-18T21:01:27Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Towards Trustworthy Healthcare AI: Attention-Based Feature Learning for
COVID-19 Screening With Chest Radiography [70.37371604119826]
信頼性を備えたAIモデルの構築は、特に医療などの規制領域において重要である。
これまでの研究では、畳み込みニューラルネットワークをバックボーンアーキテクチャとして使用していた。
本稿では,視覚変換器を用いた特徴学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T14:55:42Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Surgical Gesture Recognition Based on Bidirectional Multi-Layer
Independently RNN with Explainable Spatial Feature Extraction [10.469989981471254]
本研究では, 説明可能な特徴抽出プロセスを用いて, 効果的な外科的ジェスチャー認識手法の開発を目指す。
本稿では,双方向マルチ層独立RNN(BML-indRNN)モデルを提案する。
dcnnのブラックボックス効果を解消するために、勾配重み付けクラスアクティベーションマッピング(grad-cam)を用いる。
その結果,提案手法に基づく縫合作業の精度は87.13%であり,最先端のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-02T12:47:19Z) - TeCNO: Surgical Phase Recognition with Multi-Stage Temporal
Convolutional Networks [43.95869213955351]
外科的位相認識のための階層的予測補正を行う多段階時間畳み込みネットワーク(MS-TCN)を提案する。
本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータセットに対して,追加の外科的ツール情報を用いずに徹底的に評価した。
論文 参考訳(メタデータ) (2020-03-24T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。