論文の概要: Scaling Video Pretraining for Surgical Foundation Models
- arxiv url: http://arxiv.org/abs/2603.29966v2
- Date: Thu, 02 Apr 2026 16:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.272234
- Title: Scaling Video Pretraining for Surgical Foundation Models
- Title(参考訳): 外科的基礎モデルのためのビデオ事前トレーニングのスケーリング
- Authors: Sicheng Lu, Zikai Xiao, Jianhui Wei, Danyu Sun, Qi Lu, Keli Hu, Yang Feng, Jian Wu, Zongxin Yang, Zuozhu Liu,
- Abstract要約: SurgRecは、スケーラブルで再現可能な、外科的ビデオ理解のための事前学習のレシピだ。
内視鏡,腹腔鏡,白内障,ロボット手術を対象とする10,535ビデオと214.5Mフレームの大規模なコーパスをキュレートした。
- 参考スコア(独自算出の注目度): 51.92777479821822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical video understanding is essential for computer-assisted interventions, yet existing surgical foundation models remain constrained by limited data scale, procedural diversity, and inconsistent evaluation, often lacking a reproducible training pipeline. We propose SurgRec, a scalable and reproducible pretraining recipe for surgical video understanding, instantiated with two variants: SurgRec-MAE and SurgRec-JEPA. We curate a large multi-source corpus of 10,535 videos and 214.5M frames spanning endoscopy, laparoscopy, cataract, and robotic surgery. Building on this corpus, we develop a unified pretraining pipeline with balanced sampling and standardize a reproducible benchmark across 16 downstream datasets and four clinical domains with consistent data splits. Across extensive comparisons against SSL baselines and vision-language models, SurgRec consistently achieves superior performance across downstream datasets. In contrast, VLMs prove unreliable for fine-grained temporal recognition, exhibiting both performance gaps and sensitivity to prompt phrasing. Our work provides a reproducible, scalable foundation for the community to build more general surgical video models. All code, models, and data will be publicly released.
- Abstract(参考訳): 外科的ビデオ理解は、コンピュータ支援の介入には不可欠であるが、既存の外科的基礎モデルは、限られたデータスケール、手続き的多様性、不整合性評価によって制約され、しばしば再現可能な訓練パイプラインが欠如している。
本稿では,SurgRec-MAEとSurgRec-JEPAの2つの変種をインスタンス化した,スケーラブルで再現可能な外科的ビデオ理解のための事前学習レシピであるSurgRecを提案する。
内視鏡,腹腔鏡,白内障,ロボット手術にまたがる10,535ビデオと214.5Mフレームの多ソースコーパスをキュレートした。
このコーパスに基づいて、バランスの取れたサンプリングと、16のダウンストリームデータセットと、一貫性のあるデータ分割を持つ4つの臨床領域にわたる再現可能なベンチマークを標準化した統合事前学習パイプラインを開発する。
SSLベースラインとビジョン言語モデルとの広範な比較では、SurgRecはダウンストリームデータセット間の優れたパフォーマンスを一貫して達成している。
対照的に、VLMは微粒な時間認識には信頼性が低いことが証明され、性能ギャップと感性の両方が説明できる。
私たちの研究は、より一般的な外科的ビデオモデルを構築するための、再現可能でスケーラブルな基盤を提供する。
すべてのコード、モデル、データは公開されます。
関連論文リスト
- A benchmark for video-based laparoscopic skill analysis and assessment [1.5734501497837607]
本稿では,4つの腹腔鏡下トレーニングタスクのステレオビデオ記録1270件からなる腹腔鏡下スキル分析・アセスメントデータセットについて紹介する。
各録音には3つの独立したレーダから集約された構造化されたスキル評価と、タスク固有のエラーの有無を示すバイナリラベルがアノテートされる。
ビデオベースのスキルアセスメントとエラー認識のための既存手法と新規手法のベンチマークを容易にするため、各タスクに予め定義されたデータ分割を提供する。
論文 参考訳(メタデータ) (2026-02-10T15:59:19Z) - UniSurg: A Video-Native Foundation Model for Universal Understanding of Surgical Videos [81.9180187964947]
我々は,学習パラダイムを画素レベルの再構成から潜在動作予測に移行する基礎モデルUniSurgを提案する。
大規模な事前トレーニングを可能にするため,13の解剖学的領域にわたる50源からの3,658時間の動画を含む,これまでで最大規模の手術用ビデオデータセットをキュレートした。
これらの結果は、UniSurgを、ユニバーサルでモーション指向の外科的ビデオ理解の新しい標準として確立している。
論文 参考訳(メタデータ) (2026-02-05T13:18:33Z) - Mitigating Surgical Data Imbalance with Dual-Prediction Video Diffusion Model [7.746379804154433]
$SurgiFlowVid$は、表現不足のクラスの手術ビデオを生成するための、スパースでコントロール可能なビデオ拡散フレームワークである。
本研究は,行動認識,ツール存在検出,腹腔鏡下運動予測などの3つの課題にまたがる手術データセットに対するアプローチを検証した。
論文 参考訳(メタデータ) (2025-10-07T20:29:27Z) - Leveraging Generic Foundation Models for Multimodal Surgical Data Analysis [0.7068165275780814]
低侵襲手術支援のためのマルチモーダルモデルの単一モダリティ基盤として,V-JEPAを用いた。
我々は、未ラベルの手術ビデオデータの微調整によって、モデルの下流のパフォーマンスがどのような恩恵を受けるかを分析する。
以上の結果から,外科的データ科学が公共の汎用基盤モデルをどのように活用できるかが示唆された。
論文 参考訳(メタデータ) (2025-09-08T16:04:19Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - SASVi - Segment Any Surgical Video [2.330834737588252]
本研究では,フレームワイズMask R-CNN Overseerモデルに基づく新しい再プロンプト機構であるSASViを提案する。
このモデルは、シーンの星座が変化すると、基盤モデルSAM2を自動で再起動する。
論文 参考訳(メタデータ) (2025-02-12T00:29:41Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。