論文の概要: Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation
- arxiv url: http://arxiv.org/abs/2603.12430v1
- Date: Thu, 12 Mar 2026 20:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.752784
- Title: Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation
- Title(参考訳): Surg-R1:多施設臨床検証によるスケーラブルかつ解釈可能な外科的決定支援のための階層的推論基盤モデル
- Authors: Jian Jiang, Chenxi Lin, Yiming Gu, Zengyi Qin, Zhitao Zeng, Kun Yuan, Yonghao Long, Xiang Xia, Cheng Yuan, Yuqi Wang, Zijie Yue, Kunyi Yang, Yuting Zhang, Zhu Zhuo, Dian Qin, Xin Wang, NG Chi Fai, Brian Anthony, Daguang Xu, Guy Rosman, Ozanan Meireles, Zizhen Zhang, Nicolas Padoy, Hesheng Wang, Qi Dou, Yueming Jin, Yutong Ban,
- Abstract要約: Surg-R1は4段階のパイプラインで訓練された階層的推論によってギャップに対処する手術的視覚言語モデルである。
提案手法では,(1)知覚的根拠,関係理解,文脈的推論に外科的解釈を分解する3段階の推論階層,(2)320,000の推論ペアを持つ最大の外科的チェーン・オブ・シークエンス・データセット,の3つの重要な貢献を紹介する。
- 参考スコア(独自算出の注目度): 51.897472694590356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical scene understanding demands not only accurate predictions but also interpretable reasoning that surgeons can verify against clinical expertise. However, existing surgical vision-language models generate predictions without reasoning chains, and general-purpose reasoning models fail on compositional surgical tasks without domain-specific knowledge. We present Surg-R1, a surgical Vision-Language Model that addresses this gap through hierarchical reasoning trained via a four-stage pipeline. Our approach introduces three key contributions: (1) a three-level reasoning hierarchy decomposing surgical interpretation into perceptual grounding, relational understanding, and contextual reasoning; (2) the largest surgical chain-of-thought dataset with 320,000 reasoning pairs; and (3) a four-stage training pipeline progressing from supervised fine-tuning to group relative policy optimization and iterative self-improvement. Evaluation on SurgBench, comprising six public benchmarks and six multi-center external validation datasets from five institutions, demonstrates that Surg-R1 achieves the highest Arena Score (64.9%) on public benchmarks versus Gemini 3.0 Pro (46.1%) and GPT-5.1 (37.9%), outperforming both proprietary reasoning models and specialized surgical VLMs on the majority of tasks spanning instrument localization, triplet recognition, phase recognition, action recognition, and critical view of safety assessment, with a 15.2 percentage point improvement over the strongest surgical baseline on external validation.
- Abstract(参考訳): 外科的シーン理解は、正確な予測だけでなく、外科医が臨床の専門知識に対して検証できるという解釈可能な理由も要求する。
しかし、既存の外科的視覚言語モデルは、推論チェーンなしで予測を生成し、汎用推論モデルは、ドメイン固有の知識のない構成的外科的タスクでは失敗する。
Surg-R1は4段階のパイプラインで訓練された階層的推論によってこのギャップに対処する手術用視覚言語モデルである。
提案手法では,3段階の推論階層を知覚的基盤化,関係理解,文脈的推論に分解し,また,320,000対の推論ペアを持つ最大の外科的連鎖データセット,および,教師付き微調整からグループ相対的政策最適化,反復的自己改善に至るまでの4段階の訓練パイプラインを導入している。
6つの公開ベンチマークと5つの機関からの6つのマルチセンター外部検証データセットからなるSurgBenchの評価は、Surg-R1が、Gemini 3.0 Pro (46.1%) と GPT-5.1 (37.9%) に対して、最も高いアリーナスコア(64.9%)を達成していることを示している。
関連論文リスト
- Evaluating Large Vision-language Models for Surgical Tool Detection [0.866627581195388]
外科的ツール検出の基礎的視覚課題に対する大規模視覚言語モデルの有効性を評価する。
Qwen2.5は、評価されたVLM間の両方の構成において、優れた検出性能を一貫して達成する。
論文 参考訳(メタデータ) (2026-01-23T17:00:46Z) - Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。