論文の概要: A generalizable foundation model for intraoperative understanding across surgical procedures
- arxiv url: http://arxiv.org/abs/2602.13633v1
- Date: Sat, 14 Feb 2026 06:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.24337
- Title: A generalizable foundation model for intraoperative understanding across surgical procedures
- Title(参考訳): 外科手術における術中理解のための一般化可能な基礎モデル
- Authors: Kanggil Park, Yongjun Jeon, Soyoung Lim, Seonmin Park, Jongmin Shin, Jung Yong Kim, Sehyeon An, Jinsoo Rhu, Jongman Kim, Gyu-Seong Choi, Namkee Oh, Kyu-Hwan Jung,
- Abstract要約: 術中画像理解のための汎用基盤モデルであるZENを導入し,21以上の術式から400万フレーム以上をトレーニングした。
ZENは、既存の外科的基礎モデルより一貫して優れており、堅牢な多目的一般化を実証している。
- 参考スコア(独自算出の注目度): 1.0412442875956527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In minimally invasive surgery, clinical decisions depend on real-time visual interpretation, yet intraoperative perception varies substantially across surgeons and procedures. This variability limits consistent assessment, training, and the development of reliable artificial intelligence systems, as most surgical AI models are designed for narrowly defined tasks and do not generalize across procedures or institutions. Here we introduce ZEN, a generalizable foundation model for intraoperative surgical video understanding trained on more than 4 million frames from over 21 procedures using a self-supervised multi-teacher distillation framework. We curated a large and diverse dataset and systematically evaluated multiple representation learning strategies within a unified benchmark. Across 20 downstream tasks and full fine-tuning, frozen-backbone, few-shot and zero-shot settings, ZEN consistently outperforms existing surgical foundation models and demonstrates robust cross-procedure generalization. These results suggest a step toward unified representations for surgical scene understanding and support future applications in intraoperative assistance and surgical training assessment.
- Abstract(参考訳): 最小侵襲手術では、臨床判断はリアルタイムの視覚的解釈に依存するが、術中知覚は外科医や手術者によって大きく異なる。
ほとんどの外科的AIモデルは、狭義のタスクのために設計されており、手順や機関をまたいで一般化しないため、この可変性は、一貫した評価、訓練、信頼性の高い人工知能システムの開発に制限を与える。
本稿では,ZENについて紹介する。ZENは,自己監督型マルチティーチンガー蒸留フレームワークを用いて,400万フレーム以上で訓練された術中ビデオ理解のための汎用基盤モデルである。
我々は、大規模で多様なデータセットをキュレートし、統一されたベンチマーク内で複数の表現学習戦略を体系的に評価した。
20の下流タスクとフル微調整、冷凍バックボーン、少数ショット、ゼロショット設定では、ZENは既存の手術基盤モデルより一貫して優れており、堅牢なクロスプロデューサの一般化を示している。
これらの結果は,外科的シーン理解のための統一的な表現に向けての一歩であり,術中補助および外科的訓練評価における今後の応用を支援することを示唆している。
関連論文リスト
- NeuroABench: A Multimodal Evaluation Benchmark for Neurosurgical Anatomy Identification [56.133469598652624]
MLLM(Multimodal Large Language Models)は、外科的ビデオ理解において大きな可能性を秘めている。
Neurosurgical Anatomy Benchmark (NeuroABench)は、神経外科領域における解剖学的理解を評価するために明示的に作成された最初のマルチモーダルベンチマークである。
NeuroABenchは89の異なる手順をカバーする9時間の注釈付き神経外科ビデオで構成されている。
論文 参考訳(メタデータ) (2025-12-07T17:00:25Z) - Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:42:54Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence [1.1765603103920352]
大規模ビジョンランゲージモデルは、AI駆動の画像理解のための新しいパラダイムを提供する。
この柔軟性は、専門家がアノテートしたデータが不足している医療全体において特に有望である。
本稿では,外科的AIにおける17の視覚的理解課題を対象に,11の最先端VLMの総合的分析を行う。
論文 参考訳(メタデータ) (2025-04-03T17:42:56Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Towards Unified Surgical Skill Assessment [18.601526803020885]
自動手術スキル評価のための統合型マルチパスフレームワークを提案する。
手術シミュレーションのJIGSAWSデータセットと腹腔鏡下手術の新たな臨床データセットについて実験を行った。
論文 参考訳(メタデータ) (2021-06-02T09:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。