論文の概要: Jumpstarting Surgical Computer Vision
- arxiv url: http://arxiv.org/abs/2312.05968v2
- Date: Wed, 16 Jul 2025 08:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:10.944109
- Title: Jumpstarting Surgical Computer Vision
- Title(参考訳): 跳躍する手術用コンピュータビジョン
- Authors: Deepak Alapatt, Aditya Murali, Vinkle Srivastav, Pietro Mascagni, AI4SafeChole Consortium, Nicolas Padoy,
- Abstract要約: 我々は300以上の実験を通して、データセット合成を事前学習するためのレコメンデーションを開発する。
位相認識のための2つの公開ベンチマークにおいて、最先端の事前訓練よりも優れています。
- 参考スコア(独自算出の注目度): 2.585559512929966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consensus amongst researchers and industry points to a lack of large, representative annotated datasets as the biggest obstacle to progress in the field of surgical data science. Advances in Self-Supervised Learning (SSL) represent a solution, reducing the dependence on large labeled datasets by providing task-agnostic initializations. However, the robustness of current self-supervised learning methods to domain shifts remains unclear, limiting our understanding of its utility for leveraging diverse sources of surgical data. Shifting the focus from methods to data, we demonstrate that the downstream value of SSL-based initializations is intricately intertwined with the composition of pre-training datasets. These results underscore an important gap that needs to be filled as we scale self-supervised approaches toward building general-purpose "foundation models" that enable diverse use-cases within the surgical domain. Through several stages of controlled experimentation, we develop recommendations for pretraining dataset composition evidenced through over 300 experiments spanning 20 pre-training datasets, 9 surgical procedures, 7 centers (hospitals), 3 labeled-data settings, 3 downstream tasks, and multiple runs. Using the approaches here described, we outperform state-of-the-art pre-trainings on two public benchmarks for phase recognition: up to 2.2% on Cholec80 and 5.1% on AutoLaparo.
- Abstract(参考訳): 研究者や業界の間での合意は、大規模な注釈付きデータセットが不足していることが、外科データ科学の分野における最大の障害であることを示している。
自己監視学習(SSL)の進歩は、タスクに依存しない初期化を提供することで、大規模ラベル付きデータセットへの依存を減らすソリューションである。
しかし、現在の自己教師型学習手法のドメインシフトに対する堅牢性はいまだ不明であり、多種多様な外科的データを活用するためのその有用性に対する理解が限られている。
メソッドからデータへと焦点を移し、SSLベースの初期化の下流値が、事前トレーニングデータセットの構成と複雑に絡み合っていることを示す。
これらの結果は、外科領域内で多様なユースケースを可能にする汎用的な「基礎モデル」の構築に向けて、自己監督的なアプローチをスケールする上で、満たすべき重要なギャップを浮き彫りにする。
制御実験のいくつかの段階を通じて、20の事前訓練データセット、9の外科的処置、7のセンター(病院)、3のラベル付きデータ設定、3のダウンストリームタスク、3のダウンストリームタスク、複数のランニングにまたがる300以上の実験を通じて実証されたデータセット構成の事前訓練の勧告を開発する。
ここで説明したアプローチを用いて、我々は2つの位相認識のための公開ベンチマークで最先端の事前トレーニングを上回り、Colec80では2.2%、AutoLaparoでは5.1%に向上した。
関連論文リスト
- SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase Recognition [2.764986157003598]
本稿では,ロバストな擬似ラベリングフレームワークを用いたビデオトランスフォーマーモデルを提案する。
ラベルなしデータを組み込むことで,RAMIEの最先端性能が4.9%向上した。
本研究は半教師的外科的位相認識のための強力なベンチマークを確立した。
論文 参考訳(メタデータ) (2025-06-02T09:32:12Z) - Federated EndoViT: Pretraining Vision Transformers via Federated Learning on Endoscopic Image Collections [35.585690280385826]
We adapt the Masked Autoencoder for Federated Learning, enhance Sharpness-Aware Minimization (FedSAM) and Weight Averaging。
以上の結果から,FedSAMをFederated MAEアプローチに統合することにより,プレトレーニングが向上し,パッチ1本あたりの再建損失が減少することが示唆された。
これらの結果は,外科基礎モデルのプライバシ保護トレーニングにおけるフェデレーション学習の可能性を強調した。
論文 参考訳(メタデータ) (2025-04-23T10:54:32Z) - Boosting Few-Shot Learning with Disentangled Self-Supervised Learning and Meta-Learning for Medical Image Classification [8.975676404678374]
低データ体制下で訓練されたモデルの性能と一般化能力を改善するための戦略を提案する。
提案手法は、自己教師付き学習環境において学習した特徴をアンタングル化して、下流タスクの表現の堅牢性を向上する事前学習段階から開始する。
次に、メタファインニングのステップを導入し、メタトレーニングとメタテストフェーズの関連クラスを活用するが、レベルは変化する。
論文 参考訳(メタデータ) (2024-03-26T09:36:20Z) - LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。
CL研究は外科領域で2つの重要な問題を見落としていた。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-02-26T15:35:24Z) - ProtoKD: Learning from Extremely Scarce Data for Parasite Ova
Recognition [5.224806515926022]
ProtoKDは,極端に少ないデータを用いたマルチクラス寄生生物認識の課題に対処するための最初のアプローチの一つである。
我々は、この重要な方向の研究を推進し、提案したProtoKDフレームワークが最先端のパフォーマンスを達成することを検証するために、新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2023-09-18T23:49:04Z) - Robust Surgical Tools Detection in Endoscopic Videos with Noisy Data [2.566694420723775]
ノイズデータを用いた手術用ツール検出のためのロバストなモデルを開発するための体系的手法を提案する。
提案手法では,(1)データセットの最小化のための知的能動学習戦略と,(2)学習者モデルに基づく自己学習フレームワークの組み立て戦略,の2点を紹介する。
提案手法は,クラス重み付きアンサンブルモデルを用いた自己学習では平均85.88%,うるさいラベルでは80.88%のF1スコアを達成する。
論文 参考訳(メタデータ) (2023-07-03T08:12:56Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Unsupervised pre-training of graph transformers on patient population
graphs [48.02011627390706]
異種臨床データを扱うグラフ変換器を用いたネットワークを提案する。
自己教師型, 移動学習環境において, 事前学習方式の利点を示す。
論文 参考訳(メタデータ) (2022-07-21T16:59:09Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Rethinking Surgical Instrument Segmentation: A Background Image Can Be
All You Need [18.830738606514736]
データ不足と不均衡はモデルの精度に大きな影響を与え、ディープラーニングベースの手術アプリケーションの設計と展開を制限してきた。
本稿では,ロボット手術によるデータ収集とアノテーションの複雑で高価なプロセスを排除する,1対多のデータ生成ソリューションを提案する。
経験的分析から,高コストなデータ収集とアノテーションがなければ,適切な手術器具のセグメンテーション性能が達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-23T16:22:56Z) - LifeLonger: A Benchmark for Continual Disease Classification [59.13735398630546]
MedMNISTコレクションの連続的な疾患分類のためのベンチマークであるLifeLongerを紹介する。
タスクとクラスでの病気の漸進的な学習は、モデルをスクラッチから再トレーニングすることなく、新しいサンプルを分類する問題に対処する。
クロスドメインインクリメンタル学習は、これまで得られた知識を維持しながら、異なる機関から派生したデータセットを扱う問題に対処する。
論文 参考訳(メタデータ) (2022-04-12T12:25:05Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Simulation-to-Real domain adaptation with teacher-student learning for
endoscopic instrument segmentation [1.1047993346634768]
注釈付きシミュレーションデータとラベルのない実データから共同学習する教師学習手法を紹介します。
3つのデータセットの実証結果は、提案したフレームワークの有効性を浮き彫りにする。
論文 参考訳(メタデータ) (2021-03-02T09:30:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。