論文の概要: A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI
- arxiv url: http://arxiv.org/abs/2603.27341v1
- Date: Sat, 28 Mar 2026 17:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.912324
- Title: A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI
- Title(参考訳): 外科用AIの比較研究 : データセット,基礎モデル,Med-AGIに対する障壁
- Authors: Kirill Skobelev, Eric Fithian, Yegor Baranovski, Jack Cook, Sandeep Angara, Shauna Otto, Zhuang-Fang Yi, John Zhu, Daniel A. Donoho, X. Y. Han, Neeraj Mainkar, Margaux Masson-Forsythe,
- Abstract要約: マルチビリオンパラメータモデルと広範囲なトレーニングでさえ、現在のビジョン言語モデルは、神経外科におけるツール検出の一見単純なタスクにおいて不足していることを示す。
これらの制約の主なコントリビュータと潜在的なソリューションについて論じる。
- 参考スコア(独自算出の注目度): 0.6291991901087711
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.
- Abstract(参考訳): 最近の人工知能(AI)モデルは、いくつかのバイオメディカルタスクのパフォーマンスのベンチマークにおいて、人間の専門家と一致または上回っているが、外科的画像分析のベンチマークでは遅れを取っている。
手術には、マルチモーダルデータ統合、ヒューマンインタラクション、物理的効果など、さまざまなタスクを統合する必要があるため、パフォーマンスが向上すれば、一般的なAIモデルは、特にコラボレーティブツールとして魅力的なものになる可能性がある。
一方、建築規模とトレーニングデータのスケーリングに関する標準的なアプローチは、特に年間何百万時間もの手術ビデオデータが生成されるため、魅力的である。
一方、AIトレーニングのための外科的データを作成するには、専門的な専門知識がかなり必要であり、そのデータに対するトレーニングには高価な計算リソースが必要である。
これらのトレードオフは、現代AIが外科的訓練に役立つかどうか、不確実なイメージを描いている。
本稿では,2026年に利用可能な最先端のAI手法を用いた外科的ツール検出のケーススタディを通じて,この問題を考察する。
マルチビリオンパラメータモデルと広範囲なトレーニングでさえ、現在のビジョン言語モデルは、神経外科におけるツール検出の一見単純なタスクでは不十分であることを示す。
さらに、モデルのサイズとトレーニング時間の増加は、関連するパフォーマンス指標の改善に繋がるだけであることを示すスケーリング実験を示す。
以上より, 手術症例では, 現在のモデルが大きな障害に直面している可能性が示唆された。
さらに、いくつかの障害は単に‘スケールダウン’することができないため、さまざまなモデルアーキテクチャにまたがる追加の計算と永続化が可能であり、データとラベルの可用性が唯一の制限要因であるかどうかという疑問が提起される。
これらの制約の主なコントリビュータと潜在的なソリューションについて論じる。
関連論文リスト
- Data-Efficient Learning for Generalizable Surgical Video Understanding [0.0]
本研究は, 深層学習に基づく外科的ビデオ解析と実世界の臨床環境とのギャップを埋めることを目的としている。
私は最先端のニューラルネットワークアーキテクチャをベンチマークして、各タスクの最も効果的な設計を特定しました。
我々は,大量の未ラベルの手術ビデオを活用することにより,タスク間のモデル性能を向上させる半駆動型フレームワークを開発した。
論文 参考訳(メタデータ) (2025-08-13T22:00:23Z) - Structured Model Pruning for Efficient Inference in Computational Pathology [2.9687381456164004]
バイオメディカルイメージングにおいて広く使われているU-Netスタイルのアーキテクチャを解析する手法を開発した。
我々は,プルーニングが性能を低下させることなく,少なくとも70%圧縮できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-12T22:05:01Z) - ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling [41.30327565949726]
ORacleは、汎用ORドメインモデリング用に設計された高度な視覚言語モデルである。
マルチビューとテンポラリな機能を備えており、推論中に外部の知識を活用でき、これまで見つからなかった手術シナリオに適応することができる。
厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。
論文 参考訳(メタデータ) (2024-04-10T14:24:10Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Intuitive Surgical SurgToolLoc Challenge Results: 2022-2023 [55.40111320730479]
我々は、先進的なRA応用の文脈において、難しい機械学習問題を解決するために、外科データ科学のコミュニティに挑戦してきた。
ここでは,手術ツールの局所化(SurgToolLoc)を中心に,これらの課題の成果を報告する。
これらの課題に対応する公開データセットは、別の論文arXiv:2501.09209で詳述されている。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - SyntheX: Scaling Up Learning-based X-ray Image Analysis Through In
Silico Experiments [12.019996672009375]
人間のモデルからリアルなシミュレートされた画像を作成することは、大規模なIn situデータ収集の代替となることを示す。
人体モデルからの学習データの合成は、容易にスケールできるので、我々がSyntheXと呼ぶX線画像解析のためのモデル転送パラダイムが、実際のデータ学習モデルよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2022-06-13T13:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。