論文の概要: Scaling up self-supervised learning for improved surgical foundation models
- arxiv url: http://arxiv.org/abs/2501.09436v1
- Date: Thu, 16 Jan 2025 10:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:13.768005
- Title: Scaling up self-supervised learning for improved surgical foundation models
- Title(参考訳): 外科的基礎モデルの改善のための自己教師あり学習のスケールアップ
- Authors: Tim J. M. Jaspers, Ronald L. P. D. de Jong, Yiping Li, Carolus H. J. Kusters, Franciscus H. A. Bakker, Romy C. van Jaarsveld, Gino M. Kuiper, Richard van Hillegersberg, Jelle P. Ruurda, Willem M. Brinkman, Josien P. W. Pluim, Peter H. N. de With, Marcel Breeuwer, Yasmina Al Khalil, Fons van der Sommen,
- Abstract要約: 本研究は外科的コンピュータビジョンの新しいベンチマークを設定できる新しい手術基礎モデルであるSurgeNetXLを紹介する。
SurgeNetXLは、4つの手術手順と3つのタスクにまたがる6つのデータセットで一貫したトップレベルパフォーマンスを実現する。
これらの知見は、データスカースシナリオにおける一般化性と堅牢性を改善するための道を開いた。
- 参考スコア(独自算出の注目度): 7.188884777849523
- License:
- Abstract: Foundation models have revolutionized computer vision by achieving vastly superior performance across diverse tasks through large-scale pretraining on extensive datasets. However, their application in surgical computer vision has been limited. This study addresses this gap by introducing SurgeNetXL, a novel surgical foundation model that sets a new benchmark in surgical computer vision. Trained on the largest reported surgical dataset to date, comprising over 4.7 million video frames, SurgeNetXL achieves consistent top-tier performance across six datasets spanning four surgical procedures and three tasks, including semantic segmentation, phase recognition, and critical view of safety (CVS) classification. Compared with the best-performing surgical foundation models, SurgeNetXL shows mean improvements of 2.4, 9.0, and 12.6 percent for semantic segmentation, phase recognition, and CVS classification, respectively. Additionally, SurgeNetXL outperforms the best-performing ImageNet-based variants by 14.4, 4.0, and 1.6 percent in the respective tasks. In addition to advancing model performance, this study provides key insights into scaling pretraining datasets, extending training durations, and optimizing model architectures specifically for surgical computer vision. These findings pave the way for improved generalizability and robustness in data-scarce scenarios, offering a comprehensive framework for future research in this domain. All models and a subset of the SurgeNetXL dataset, including over 2 million video frames, are publicly available at: https://github.com/TimJaspers0801/SurgeNet.
- Abstract(参考訳): ファンデーションモデルは、広範囲なデータセットに対する大規模な事前トレーニングを通じて、さまざまなタスクにわたって非常に優れたパフォーマンスを達成することによって、コンピュータビジョンに革命をもたらした。
しかし、手術用コンピュータビジョンへの応用は限られている。
本研究は,新しい手術基盤モデルであるSurgeNetXLを導入することにより,このギャップに対処する。
これまでに報告された最大規模の手術データセットに基づいてトレーニングされ、4つの手術手順とセマンティックセグメンテーション、位相認識、安全のクリティカルビュー(CVS)を含む3つのタスクにまたがる6つのデータセットにわたる一貫したトップレベルのパフォーマンスを実現している。
最高の手術基盤モデルと比較すると、SurgeNetXLはセマンティックセグメンテーション、位相認識、CVS分類においてそれぞれ2.4、9.0、12.6%の改善を示している。
さらに、SurgeNetXLは、各タスクの14.4、4.0、1.6パーセントで、最もパフォーマンスの良いImageNetベースの変種より優れています。
本研究は、モデル性能の向上に加えて、事前学習データセットのスケーリング、トレーニング期間の延長、特に手術用コンピュータビジョンのためのモデルアーキテクチャの最適化に関する重要な洞察を提供する。
これらの知見は、データスカースシナリオにおける一般化性と堅牢性を改善するための道を開き、この領域における将来の研究のための包括的なフレームワークを提供する。
200万以上のビデオフレームを含むSurgeNetXLデータセットのすべてのモデルとサブセットは、https://github.com/TimJaspers0801/SurgeNetで公開されている。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation [0.799543372823325]
セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
論文 参考訳(メタデータ) (2024-09-14T21:01:49Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - AMAES: Augmented Masked Autoencoder Pretraining on Public Brain MRI Data for 3D-Native Segmentation [2.0749231618270803]
本研究では,3次元セマンティックセグメンテーションモデルの自己教師付き事前学習が大規模・ドメイン固有データセットに与える影響について検討した。
我々は、公開ソースから44,756個の脳MRIボリュームのデータセットであるBRAINS-45Kを紹介した。
論文 参考訳(メタデータ) (2024-08-01T15:27:48Z) - Exploring the Effect of Dataset Diversity in Self-Supervised Learning for Surgical Computer Vision [5.782979506525853]
外科的コンピュータビジョンの影響は、病理学や放射線学のような他の医学分野と比較しても限られている。
近年の自己教師型学習の進歩は優れた性能を示している。
本研究では,外科的コンピュータビジョンにおけるSSLにおけるデータセットの多様性の役割について検討する。
論文 参考訳(メタデータ) (2024-07-25T09:49:04Z) - An evaluation of pre-trained models for feature extraction in image
classification [0.0]
この研究は、画像分類タスクにおける特徴抽出のために、様々な事前学習ニューラルネットワークの性能を比較することを目的としている。
以上の結果から,CLIP-ResNet50モデルに類似した性能を持つが,可変性が低いCLIP-ViT-BとViT-H-14により,データセットに沿って最高の汎用性能が達成されたことが示唆された。
論文 参考訳(メタデータ) (2023-10-03T13:28:14Z) - SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation [83.18930314027254]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
論文 参考訳(メタデータ) (2023-09-29T17:58:06Z) - STU-Net: Scalable and Transferable Medical Image Segmentation Models
Empowered by Large-Scale Supervised Pre-training [43.04882328763337]
拡張性のあるU-Net(STU-Net)モデルを設計し、パラメータサイズは1400万から140億まで様々である。
我々は、大規模TotalSegmentatorデータセットでスケーラブルなSTU-Netモデルをトレーニングし、モデルサイズの増加がより強力なパフォーマンス向上をもたらすことを発見した。
我々は、直接推論と微調整の両方において、事前学習されたモデルの優れた性能を観察する。
論文 参考訳(メタデータ) (2023-04-13T17:59:13Z) - Semantic segmentation of surgical hyperspectral images under geometric
domain shifts [69.91792194237212]
本稿では、幾何学的アウト・オブ・ディストリビューション(OOD)データの存在下で、最先端のセマンティックセグメンテーションネットワークを初めて分析する。
有機移植(Organ transplantation)と呼ばれる専用の拡張技術により、一般化可能性にも対処する。
提案手法は,SOA DSCの最大67 % (RGB) と90% (HSI) を改善し,実際のOODテストデータ上での分配内性能と同等の性能を示す。
論文 参考訳(メタデータ) (2023-03-20T09:50:07Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。