論文の概要: How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
- arxiv url: http://arxiv.org/abs/2511.01775v1
- Date: Mon, 03 Nov 2025 17:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.351486
- Title: How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
- Title(参考訳): 外科的世界モデルからの距離はどれくらいか?専門家によるゼロショット手術映像生成の試み
- Authors: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo,
- Abstract要約: 本稿では,手術におけるビデオ生成モデル評価のための専門家による最初のベンチマークであるSurgVeoを紹介する。
腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した高度なVeo-3モデルを課題とする。
以上の結果から,Veo-3は異常な視覚的視認性を示すが,手術的視認性ピラミッドの高位では致命的に失敗することが明らかとなった。
- 参考スコア(独自算出の注目度): 69.13598421861654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models in video generation are demonstrating remarkable capabilities as potential world models for simulating the physical world. However, their application in high-stakes domains like surgery, which demand deep, specialized causal knowledge rather than general physical rules, remains a critical unexplored gap. To systematically address this challenge, we present SurgVeo, the first expert-curated benchmark for video generation model evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel, four-tiered framework tailored to assess model outputs from basic appearance to complex surgical strategy. On the basis of the SurgVeo benchmark, we task the advanced Veo-3 model with a zero-shot prediction task on surgical clips from laparoscopic and neurosurgical procedures. A panel of four board-certified surgeons evaluates the generated videos according to the SPP. Our results reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual Perceptual Plausibility, it fails critically at higher levels of the SPP, including Instrument Operation Plausibility, Environment Feedback Plausibility, and Surgical Intent Plausibility. This work provides the first quantitative evidence of the chasm between visually convincing mimicry and causal understanding in surgical AI. Our findings from SurgVeo and the SPP establish a crucial foundation and roadmap for developing future models capable of navigating the complexities of specialized, real-world healthcare domains.
- Abstract(参考訳): ビデオ生成の基礎モデルは、物理世界をシミュレートする潜在的な世界モデルとして、目覚ましい能力を発揮している。
しかし、一般的な物理規則ではなく、より深い専門的な因果知識を必要とする外科のような高度な領域への応用は、依然として重要な未解決のギャップである。
この課題を体系的に解決するために、手術におけるビデオ生成モデル評価のための最初の専門家によるベンチマークであるSurgVeoと、基本的な外観から複雑な手術戦略までのモデルアウトプットを評価するための新しい4層フレームワークであるSurgPlusibility Pyramid(SPP)を提示する。
SurgVeoベンチマークに基づいて,腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した,高度なVeo-3モデルを課題とする。
SPPによると、4人のボード認定外科医のパネルが生成されたビデオを評価します。
以上の結果から,Veo-3は視覚的知覚プラウザビリティに優れるが,機器操作プラウザビリティ,環境フィードバックプラウザビリティ,外科的インテントプラウザビリティなど,SPPの高レベルにおいて致命的に失敗することが明らかとなった。
この研究は、外科的AIにおける視覚的に説得力のある模倣と因果理解の間の亀裂に関する最初の定量的証拠を提供する。
SurgVeoとSPPから得られた知見は、専門的な現実世界の医療ドメインの複雑さをナビゲートできる将来のモデルを開発するための重要な基盤とロードマップを確立します。
関連論文リスト
- Decoding the Surgical Scene: A Scoping Review of Scene Graphs in Surgery [36.192962258966105]
シーングラフ(SG)は、複雑なダイナミックな手術環境のデコードに不可欠な構造化された表現を提供する。
The PRISMA-ScR-guided scoping review systemally map the evolution landscape of SG research in surgery。
我々の分析は急速に成長しているが、重要な「データ分割」を明らかにしている
SGは重要なセマンティックブリッジに成熟し、新しい世代のインテリジェントシステムによって外科の安全性、効率、訓練を改善することができる。
論文 参考訳(メタデータ) (2025-09-25T09:25:46Z) - HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation [44.37374628674769]
2つの専門拡散モデルからなる階層型手術ビデオ生成フレームワークであるHieraSurgを提案する。
このモデルは、既存のセグメンテーションマップが提供される際に特にきめ細かい付着を示しており、実際的な外科的応用の可能性を示している。
論文 参考訳(メタデータ) (2025-06-26T14:07:23Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。
さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。
以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2025-06-06T16:53:12Z) - Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:42:54Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。