論文の概要: Exploring Pre-training Across Domains for Few-Shot Surgical Skill Assessment
- arxiv url: http://arxiv.org/abs/2509.09327v1
- Date: Thu, 11 Sep 2025 10:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.337008
- Title: Exploring Pre-training Across Domains for Few-Shot Surgical Skill Assessment
- Title(参考訳): 整形外科的スキル評価のための領域間事前トレーニングの探索
- Authors: Dimitrios Anastasiou, Razvan Caramalau, Nazir Sirajudeen, Matthew Boal, Philip Edwards, Justin Collins, John Kelly, Ashwin Sridhar, Maxine Tran, Faiz Mumtaz, Nevil Pavithran, Nader Francis, Danail Stoyanov, Evangelos B. Mazomenos,
- Abstract要約: 自動手術スキルアセスメント(SSA)は、外科的コンピュータビジョンにおける中心的な課題である。
ほとんどショットなしの学習は、最小限の監督でモデル開発を可能にするスケーラブルな代替手段を提供する。
いくつかの外科的下流のタスクについて広く研究されているが、事前訓練はSSAでは未調査のままである。
- 参考スコア(独自算出の注目度): 6.796181867667279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated surgical skill assessment (SSA) is a central task in surgical computer vision. Developing robust SSA models is challenging due to the scarcity of skill annotations, which are time-consuming to produce and require expert consensus. Few-shot learning (FSL) offers a scalable alternative enabling model development with minimal supervision, though its success critically depends on effective pre-training. While widely studied for several surgical downstream tasks, pre-training has remained largely unexplored in SSA. In this work, we formulate SSA as a few-shot task and investigate how self-supervised pre-training strategies affect downstream few-shot SSA performance. We annotate a publicly available robotic surgery dataset with Objective Structured Assessment of Technical Skill (OSATS) scores, and evaluate various pre-training sources across three few-shot settings. We quantify domain similarity and analyze how domain gap and the inclusion of procedure-specific data into pre-training influence transferability. Our results show that small but domain-relevant datasets can outperform large scale, less aligned ones, achieving accuracies of 60.16%, 66.03%, and 73.65% in the 1-, 2-, and 5-shot settings, respectively. Moreover, incorporating procedure-specific data into pre-training with a domain-relevant external dataset significantly boosts downstream performance, with an average gain of +1.22% in accuracy and +2.28% in F1-score; however, applying the same strategy with less similar but large-scale sources can instead lead to performance degradation. Code and models are available at https://github.com/anastadimi/ssa-fsl.
- Abstract(参考訳): 自動手術スキルアセスメント(SSA)は、外科的コンピュータビジョンにおける中心的な課題である。
堅牢なSSAモデルの開発は、専門家の合意を得るのに時間がかかるスキルアノテーションが不足しているため、難しい。
FSL(Few-shot Learning)は、最小限の監督でモデル開発を可能にするスケーラブルな代替手段を提供するが、その成功は効果的な事前トレーニングに依存している。
いくつかの外科的下流のタスクについて広く研究されているが、事前訓練はSSAでは未調査のままである。
本研究では,SSAを複数ショットタスクとして定式化し,自己指導型事前学習戦略が下流数ショットSSAのパフォーマンスに与える影響について検討する。
我々は,OATS(Objective Structured Assessment of Technical Skill)スコアを用いた公開可能なロボット手術データセットを注釈し,いくつかの設定で事前トレーニングを行う。
ドメインの類似性を定量化し、ドメインギャップとプロシージャ固有のデータを事前学習による影響伝達性に含める方法について分析する。
以上の結果から,1-,2-,5-ショット設定で60.16%,66.03%,73.65%のアキュラシーを達成できた。
さらに、プロシージャ固有のデータをドメイン関連外部データセットで事前トレーニングに組み込むことで、ダウンストリームのパフォーマンスが大幅に向上し、精度は+1.22%、F1スコアは+2.28%向上する。
コードとモデルはhttps://github.com/anastadimi/ssa-fsl.comで公開されている。
関連論文リスト
- Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning [8.348143234047486]
少ないショット認識は、下流タスクに関連する各概念のラベル付き例でのみ、分類モデルをトレーニングすることを目的としている。
事前学習型視覚言語モデル(VLM)を利用してFSRの解法を開発する。
論文 参考訳(メタデータ) (2024-06-17T02:27:14Z) - Jumpstarting Surgical Computer Vision [2.585559512929966]
我々は300以上の実験を通して、データセット合成を事前学習するためのレコメンデーションを開発する。
位相認識のための2つの公開ベンチマークにおいて、最先端の事前訓練よりも優れています。
論文 参考訳(メタデータ) (2023-12-10T18:54:16Z) - One-shot skill assessment in high-stakes domains with limited data via meta learning [0.0]
A-VBANetは、ワンショット学習を通じてドメインに依存しないスキルアセスメントを提供する、新しいメタラーニングモデルである。
腹腔鏡下胆嚢摘出術では99.5%,小切片設定では99.9%,腹腔鏡下胆嚢摘出術では89.7%の順応が得られた。
論文 参考訳(メタデータ) (2022-12-16T01:04:52Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Understanding Cross-Domain Few-Shot Learning: An Experimental Study [17.81177649496765]
ドメイン間数ショットの学習は、ソースとターゲットドメインの大きな違いを扱うために注目されている。
最近の研究は、事前訓練期間中に対象領域からの小規模な未ラベルデータを活用することを検討している。
このデータは、ソースドメインの教師付き事前トレーニングに加えて、ターゲットドメインでの自己教師付き事前トレーニングを可能にする。
論文 参考訳(メタデータ) (2022-02-01T12:35:25Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。