論文の概要: Large-scale Self-supervised Video Foundation Model for Intelligent Surgery
- arxiv url: http://arxiv.org/abs/2506.02692v1
- Date: Tue, 03 Jun 2025 09:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.575138
- Title: Large-scale Self-supervised Video Foundation Model for Intelligent Surgery
- Title(参考訳): 知的手術のための大規模自己監督型ビデオファンデーションモデル
- Authors: Shu Yang, Fengtao Zhou, Leon Mayer, Fuxiang Huang, Yiliang Chen, Yihui Wang, Sunan He, Yuxiang Nie, Xi Wang, Ömer Sümer, Yueming Jin, Huihui Sun, Shuchang Xu, Alex Qinyang Liu, Zheng Li, Jing Qin, Jeremy YuenChun Teoh, Lena Maier-Hein, Hao Chen,
- Abstract要約: 本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 27.418249899272155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-Assisted Intervention (CAI) has the potential to revolutionize modern surgery, with surgical scene understanding serving as a critical component in supporting decision-making, improving procedural efficacy, and ensuring intraoperative safety. While existing AI-driven approaches alleviate annotation burdens via self-supervised spatial representation learning, their lack of explicit temporal modeling during pre-training fundamentally restricts the capture of dynamic surgical contexts, resulting in incomplete spatiotemporal understanding. In this work, we introduce the first video-level surgical pre-training framework that enables joint spatiotemporal representation learning from large-scale surgical video data. To achieve this, we constructed a large-scale surgical video dataset comprising 3,650 videos and approximately 3.55 million frames, spanning more than 20 surgical procedures and over 10 anatomical structures. Building upon this dataset, we propose SurgVISTA (Surgical Video-level Spatial-Temporal Architecture), a reconstruction-based pre-training method that captures intricate spatial structures and temporal dynamics through joint spatiotemporal modeling. Additionally, SurgVISTA incorporates image-level knowledge distillation guided by a surgery-specific expert to enhance the learning of fine-grained anatomical and semantic features. To validate its effectiveness, we established a comprehensive benchmark comprising 13 video-level datasets spanning six surgical procedures across four tasks. Extensive experiments demonstrate that SurgVISTA consistently outperforms both natural- and surgical-domain pre-trained models, demonstrating strong potential to advance intelligent surgical systems in clinically meaningful scenarios.
- Abstract(参考訳): CAI(Computer-Assisted Intervention)は近代的な手術に革命をもたらす可能性があり、外科的シーン理解は意思決定を支援し、手続き的有効性を改善し、術中安全性を確保する上で重要な要素である。
既存のAI駆動アプローチは、自己教師付き空間表現学習によるアノテーションの負担を軽減するが、事前学習中の明示的な時間的モデリングの欠如は、動的外科的コンテキストの捕捉を根本的に制限し、不完全な時空間理解をもたらす。
本研究では,大規模な手術映像データから同時時空間表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを提案する。
これを実現するために,約3,650本のビデオと約3,5500万フレームからなる大規模な手術ビデオデータセットを構築した。
本研究では,SurgVISTA(Surgical Video Level Space-Temporal Architecture)を提案する。
さらに、SurgVISTAは、手術専門家が指導する画像レベルの知識蒸留を取り入れ、微細な解剖学的および意味的な特徴の学習を強化する。
その有効性を検証するために,4つの課題にまたがる6つの手術手順にまたがる13の動画レベルデータセットからなる総合的ベンチマークを構築した。
広範囲にわたる実験により、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回り、臨床的に有意義なシナリオにおいてインテリジェントな手術システムを前進させる可能性を示している。
関連論文リスト
- SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - SAMSNeRF: Segment Anything Model (SAM) Guides Dynamic Surgical Scene
Reconstruction by Neural Radiance Field (NeRF) [4.740415113160021]
本稿では,Segment Anything Model(SAM)とNeRF技術を組み合わせたSAMSNeRFという新しい手法を提案する。
内視鏡下外科的画像を用いた実験の結果,高忠実度ダイナミックな手術シーンの再構築に成功していることが示された。
論文 参考訳(メタデータ) (2023-08-22T20:31:00Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - A real-time spatiotemporal AI model analyzes skill in open surgical
videos [2.4907439112059278]
これまでで最大のオープンな手術用ビデオデータセットであるYouTubeから、50か国からアップロードされた23の手術用プロシージャから1997年の動画を収集することで、AIモデルをトレーニングするための既存のデータ制限を克服しました。
我々は,手術行動,手,道具のリアルタイム理解が可能なマルチタスクAIモデルを開発した。
論文 参考訳(メタデータ) (2021-12-14T08:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。