論文の概要: UniSurg: A Video-Native Foundation Model for Universal Understanding of Surgical Videos
- arxiv url: http://arxiv.org/abs/2602.05638v1
- Date: Thu, 05 Feb 2026 13:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.941688
- Title: UniSurg: A Video-Native Foundation Model for Universal Understanding of Surgical Videos
- Title(参考訳): UniSurg: 手術ビデオの普遍的理解のためのビデオネイティブ基盤モデル
- Authors: Jinlin Wu, Felix Holm, Chuxi Chen, An Wang, Yaxin Hu, Xiaofan Ye, Zelin Zang, Miao Xu, Lihua Zhou, Huai Liao, Danny T. M. Chan, Ming Feng, Wai S. Poon, Hongliang Ren, Dong Yi, Nassir Navab, Gaofeng Meng, Jiebo Luo, Hongbin Liu, Zhen Lei,
- Abstract要約: 我々は,学習パラダイムを画素レベルの再構成から潜在動作予測に移行する基礎モデルUniSurgを提案する。
大規模な事前トレーニングを可能にするため,13の解剖学的領域にわたる50源からの3,658時間の動画を含む,これまでで最大規模の手術用ビデオデータセットをキュレートした。
これらの結果は、UniSurgを、ユニバーサルでモーション指向の外科的ビデオ理解の新しい標準として確立している。
- 参考スコア(独自算出の注目度): 81.9180187964947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While foundation models have advanced surgical video analysis, current approaches rely predominantly on pixel-level reconstruction objectives that waste model capacity on low-level visual details - such as smoke, specular reflections, and fluid motion - rather than semantic structures essential for surgical understanding. We present UniSurg, a video-native foundation model that shifts the learning paradigm from pixel-level reconstruction to latent motion prediction. Built on the Video Joint Embedding Predictive Architecture (V-JEPA), UniSurg introduces three key technical innovations tailored to surgical videos: 1) motion-guided latent prediction to prioritize semantically meaningful regions, 2) spatiotemporal affinity self-distillation to enforce relational consistency, and 3) feature diversity regularization to prevent representation collapse in texture-sparse surgical scenes. To enable large-scale pretraining, we curate UniSurg-15M, the largest surgical video dataset to date, comprising 3,658 hours of video from 50 sources across 13 anatomical regions. Extensive experiments across 17 benchmarks demonstrate that UniSurg significantly outperforms state-of-the-art methods on surgical workflow recognition (+14.6% F1 on EgoSurgery, +10.3% on PitVis), action triplet recognition (39.54% mAP-IVT on CholecT50), skill assessment, polyp segmentation, and depth estimation. These results establish UniSurg as a new standard for universal, motion-oriented surgical video understanding.
- Abstract(参考訳): 基礎モデルには高度な手術ビデオ分析があるが、現在のアプローチは、外科的理解に不可欠な意味構造ではなく、低レベルの視覚的詳細(煙、特異反射、流体運動など)に、モデルの容量を浪費するというピクセルレベルの再構築目標に大きく依存している。
ビデオネイティブ基盤モデルであるUniSurgは,学習パラダイムを画素レベルの再構成から潜在動作予測へシフトさせる。
The Video Joint Embedding Predictive Architecture (V-JEPA)上に構築されたUniSurgは、外科的ビデオに合わせた3つの重要な技術革新を紹介している。
1)意味のある領域を優先する動作誘導潜伏予測
2【関係整合性を強制する時空間親和性自己蒸留】
3) テクスチャ・スパース手術シーンにおける表現崩壊を防止するため, 多様性の規則化を図った。
大規模な事前トレーニングを可能にするため,これまでで最大規模の手術用ビデオデータセットであるUniSurg-15Mを,13の解剖学的領域にわたる50のソースから3,658時間のビデオを収集した。
17のベンチマークにわたる大規模な実験により、UniSurgは外科的ワークフロー認識(EgoSurgeryでは+14.6% F1、PitVisでは+10.3%)、アクション三重項認識(CholecT50では39.54% mAP-IVT)、スキルアセスメント、ポリプセグメンテーション、深さ推定において最先端の手法を大幅に上回っていることが示された。
これらの結果は、UniSurgを、ユニバーサルでモーション指向の外科的ビデオ理解の新しい標準として確立している。
関連論文リスト
- How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment [69.13598421861654]
本稿では,手術におけるビデオ生成モデル評価のための専門家による最初のベンチマークであるSurgVeoを紹介する。
腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した高度なVeo-3モデルを課題とする。
以上の結果から,Veo-3は異常な視覚的視認性を示すが,手術的視認性ピラミッドの高位では致命的に失敗することが明らかとなった。
論文 参考訳(メタデータ) (2025-11-03T17:28:54Z) - HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation [44.37374628674769]
2つの専門拡散モデルからなる階層型手術ビデオ生成フレームワークであるHieraSurgを提案する。
このモデルは、既存のセグメンテーションマップが提供される際に特にきめ細かい付着を示しており、実際的な外科的応用の可能性を示している。
論文 参考訳(メタデータ) (2025-06-26T14:07:23Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:42:54Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - LEMON: A Large Endoscopic MONocular Dataset and Foundation Model for Perception in Surgical Settings [4.912213082028129]
LEMONは4K以上の手術用ビデオのコレクションで、さまざまなタイプの高品質な映像を938時間(8500万フレーム)で撮影する。
レモンFM(LemonFM)は、LEMONで事前訓練された基礎モデルである。
レモンとレモンFMは研究コミュニティと産業の基盤となる。
論文 参考訳(メタデータ) (2025-03-25T15:05:00Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。