論文の概要: SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2506.01471v1
- Date: Mon, 02 Jun 2025 09:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.171904
- Title: SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase Recognition
- Title(参考訳): SemiVT-Surge:手術相認識のための半スーパービジョンビデオ変換器
- Authors: Yiping Li, Ronald de Jong, Sahar Nasirihaghighi, Tim Jaspers, Romy van Jaarsveld, Gino Kuiper, Richard van Hillegersberg, Fons van der Sommen, Jelle Ruurda, Marcel Breeuwer, Yasmina Al Khalil,
- Abstract要約: 本稿では,ロバストな擬似ラベリングフレームワークを用いたビデオトランスフォーマーモデルを提案する。
ラベルなしデータを組み込むことで,RAMIEの最先端性能が4.9%向上した。
本研究は半教師的外科的位相認識のための強力なベンチマークを確立した。
- 参考スコア(独自算出の注目度): 2.764986157003598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate surgical phase recognition is crucial for computer-assisted interventions and surgical video analysis. Annotating long surgical videos is labor-intensive, driving research toward leveraging unlabeled data for strong performance with minimal annotations. Although self-supervised learning has gained popularity by enabling large-scale pretraining followed by fine-tuning on small labeled subsets, semi-supervised approaches remain largely underexplored in the surgical domain. In this work, we propose a video transformer-based model with a robust pseudo-labeling framework. Our method incorporates temporal consistency regularization for unlabeled data and contrastive learning with class prototypes, which leverages both labeled data and pseudo-labels to refine the feature space. Through extensive experiments on the private RAMIE (Robot-Assisted Minimally Invasive Esophagectomy) dataset and the public Cholec80 dataset, we demonstrate the effectiveness of our approach. By incorporating unlabeled data, we achieve state-of-the-art performance on RAMIE with a 4.9% accuracy increase and obtain comparable results to full supervision while using only 1/4 of the labeled data on Cholec80. Our findings establish a strong benchmark for semi-supervised surgical phase recognition, paving the way for future research in this domain.
- Abstract(参考訳): 正確な外科的位相認識は、コンピュータ支援の介入と手術ビデオ解析に不可欠である。
長い手術ビデオの注釈付けは労働集約的であり、最小限のアノテーションで強力なパフォーマンスのためにラベル付けされていないデータを活用する研究を推進している。
自己教師あり学習は、大規模事前訓練と、小さなラベル付きサブセットの微調整によって人気を博しているが、セミ教師ありのアプローチは、外科領域では未熟なままである。
本研究では,ロバストな擬似ラベリングフレームワークを用いたビデオトランスフォーマーモデルを提案する。
提案手法では,ラベル付きデータと擬似ラベルを併用して特徴空間を改良し,非ラベル付きデータに対する時間的整合性正規化とクラスプロトタイプとの対比学習を取り入れた。
プライベートRAMIE(Robot-Assisted Minimally Invasive Esophagectomy)データセットと公共のColec80データセットに関する広範な実験を通じて、我々のアプローチの有効性を実証した。
ラベルなしデータを組み込むことで、RAMIEの最先端性能を4.9%向上させ、Colec80のラベル付きデータの1/4のみを使用しながら、完全な監視に匹敵する結果を得る。
本研究は半教師的外科的位相認識のための強力なベンチマークを確立し,今後の研究の道を開くものである。
関連論文リスト
- CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Benchmarking Pathology Feature Extractors for Whole Slide Image Classification [2.173830337391778]
弱教師付き全スライド画像分類は、計算病理学における重要な課題である。
特徴抽出器の総合的なベンチマークを行い、3つの重要な質問に答える。
我々は経験的に観察し、潜伏空間を解析することにより、染色の正規化や画像の増大は性能を低下させない。
提案手法は, 下流性能を比較するための新しい評価指標を開発し, 下流性能の指標として, 特徴抽出器の選択が最も重要な要因であることを示す。
論文 参考訳(メタデータ) (2023-11-20T13:58:26Z) - Shifting to Machine Supervision: Annotation-Efficient Semi and Self-Supervised Learning for Automatic Medical Image Segmentation and Classification [9.67209046726903]
我々は、自己教師型および半教師型学習の進歩を活用する新しいアプローチであるS4MIパイプラインを紹介する。
本研究は、これらの手法を3つの異なる医用画像データセット上で評価し、分類と分割作業の有効性を評価する。
注目すべきは、半教師付きアプローチはセグメンテーションにおいて優れた結果を示し、全データセットで50%少ないラベルを使用しながら、完全な教師付き手法よりも優れた結果を示したことだ。
論文 参考訳(メタデータ) (2023-11-17T04:04:29Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Deep Semi-supervised Metric Learning with Dual Alignment for Cervical
Cancer Cell Detection [49.78612417406883]
子宮頸癌細胞検出のための新しい半教師付き深度測定法を提案する。
私たちのモデルは、埋め込みメトリック空間を学習し、提案レベルとプロトタイプレベルの両方でセマンティック機能の二重アライメントを行います。
本研究は,240,860個の頸部細胞画像からなる半監督型頸部がん細胞検出のための大規模データセットを初めて構築した。
論文 参考訳(メタデータ) (2021-04-07T17:11:27Z) - Co-Generation and Segmentation for Generalized Surgical Instrument
Segmentation on Unlabelled Data [49.419268399590045]
正確な機器追跡と拡張現実オーバーレイには、ロボット支援手術のための外科用機器セグメンテーションが必要です。
深層学習法では手術器具のセグメンテーションに最先端のパフォーマンスが示されたが,結果はラベル付きデータに依存する。
本稿では,ロボットによる手術を含むさまざまなデータセット上で,これらの手法の限定的な一般化性を実証する。
論文 参考訳(メタデータ) (2021-03-16T18:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。