論文の概要: SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning
- arxiv url: http://arxiv.org/abs/2603.06570v1
- Date: Fri, 06 Mar 2026 18:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.411511
- Title: SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning
- Title(参考訳): Sureon: 外科的推論のためのベンチマークとビジョンランゲージモデル
- Authors: Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri,
- Abstract要約: 外科的ビデオからトレーニング信号を抽出する大規模ビデオQAデータセットであるSUREONを紹介する。
SUREONは、安全アセスメント、意思決定の合理化、予測に関する12のカテゴリを定義し、マルチエージェントパイプラインを使用して大規模な監視を抽出し、構成する。
本稿では、教師付き微調整により適応した視覚言語モデルであるSureonVLMと、グループ相対ポリシー最適化で訓練された推論モデルであるSureonVLM-R1を紹介する。
- 参考スコア(独自算出の注目度): 39.83008026342167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgeons don't just see -- they interpret. When an expert observes a surgical scene, they understand not only what instrument is being used, but why it was chosen, what risk it poses, and what comes next. Current surgical AI cannot answer such questions, largely because training data that explicitly encodes surgical reasoning is immensely difficult to annotate at scale. Yet surgical video lectures already contain exactly this -- explanations of intent, rationale, and anticipation, narrated by experts for the purpose of teaching. Though inherently noisy and unstructured, these narrations encode the reasoning that surgical AI currently lacks. We introduce SUREON, a large-scale video QA dataset that systematically harvests this training signal from surgical academic videos. SUREON defines 12 question categories covering safety assessment, decision rationale, and forecasting, and uses a multi-agent pipeline to extract and structure supervision at scale. Across 134.7K clips and 170 procedure types, SUREON yields 206.8k QA pairs and an expert-validated benchmark of 354 examples. To evaluate the extent to which this supervision translates to surgical reasoning ability, we introduce two models: SureonVLM, a vision-language model adapted through supervised fine-tuning, and SureonVLM-R1, a reasoning model trained with Group Relative Policy Optimization. Both models can answer complex questions about surgery and substantially outperform larger general-domain models, exceeding 84% accuracy on the SUREON benchmark while outperforming general-domain models on standard surgical perception tasks. Qualitative analysis of SureonVLM-R1 reveals explicit reasoning behavior, such as inferring operative intent from visual context.
- Abstract(参考訳): 外科医は、解釈するだけでなく、解釈する。専門家が手術シーンを観察するとき、専門家は、どの器具が使われているのか、なぜ選択されたのか、どのようなリスクが生じるのか、次に何が起こるのかを理解する。現在の外科用AIは、外科的推論を明示的に符号化するトレーニングデータは、大規模に注釈付けすることが非常に難しいため、このような質問に答えることができない。しかし、手術用ビデオ講義には、意図、合理性、および予想の説明が、専門家によって指導目的のために語り出された。
本質的には騒々しく、構造化されていないが、これらのナレーションは、現在外科的AIに欠けている理由をエンコードしている。
本稿では,このトレーニング信号を外科的ビデオから体系的に収集する大規模ビデオQAデータセットSUREONを紹介する。
SUREONは、安全アセスメント、意思決定の合理化、予測に関する12のカテゴリを定義し、マルチエージェントパイプラインを使用して大規模な監視を抽出し、構成する。
134.7Kのクリップと170のプロシージャタイプで、SUREONは206.8kのQAペアと354のサンプルのエキスパート検証ベンチマークを出力する。
この指導が外科的推論能力にどの程度影響するかを評価するために,教師付き微調整により適応した視覚言語モデルであるSureonVLMと,グループ相対ポリシー最適化で訓練された推論モデルであるSureonVLM-R1を導入する。
どちらのモデルも手術に関する複雑な疑問に答えることができ、SUREONベンチマークでは84%以上の精度で、標準的な外科的知覚タスクでは一般ドメインモデルよりも優れている。
SureonVLM-R1の質的分析は、視覚的文脈から手術意図を推測するなど、明確な推論行動を示す。
関連論文リスト
- A generalizable foundation model for intraoperative understanding across surgical procedures [1.0412442875956527]
術中画像理解のための汎用基盤モデルであるZENを導入し,21以上の術式から400万フレーム以上をトレーニングした。
ZENは、既存の外科的基礎モデルより一貫して優れており、堅牢な多目的一般化を実証している。
論文 参考訳(メタデータ) (2026-02-14T06:52:42Z) - How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment [69.13598421861654]
本稿では,手術におけるビデオ生成モデル評価のための専門家による最初のベンチマークであるSurgVeoを紹介する。
腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した高度なVeo-3モデルを課題とする。
以上の結果から,Veo-3は異常な視覚的視認性を示すが,手術的視認性ピラミッドの高位では致命的に失敗することが明らかとなった。
論文 参考訳(メタデータ) (2025-11-03T17:28:54Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery [17.728772280544444]
ロボット手術シナリオにおけるDeepSeekモデルの対話機能について検討する。
実験により,DeepSeek-VL2は,既存の汎用多目的大言語モデルと比較して,複雑な理解タスクにおいて優れた性能を発揮することが示された。
DeepSeek-V3は純粋に言語モデルであるが,画像トークンを直接入力すると,単一文QAタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2025-03-29T15:48:46Z) - Is Segment Anything Model 2 All You Need for Surgery Video Segmentation? A Systematic Evaluation [25.459372606957736]
本稿では,ゼロショット手術映像分割作業におけるSAM2モデルの性能を体系的に評価する。
我々は、異なるプロンプト戦略やロバスト性など、異なる構成で実験を行った。
論文 参考訳(メタデータ) (2024-12-31T16:20:05Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。