論文の概要: SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2506.01471v1
- Date: Mon, 02 Jun 2025 09:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.171904
- Title: SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase Recognition
- Title(参考訳): SemiVT-Surge:手術相認識のための半スーパービジョンビデオ変換器
- Authors: Yiping Li, Ronald de Jong, Sahar Nasirihaghighi, Tim Jaspers, Romy van Jaarsveld, Gino Kuiper, Richard van Hillegersberg, Fons van der Sommen, Jelle Ruurda, Marcel Breeuwer, Yasmina Al Khalil,
- Abstract要約: 本稿では,ロバストな擬似ラベリングフレームワークを用いたビデオトランスフォーマーモデルを提案する。
ラベルなしデータを組み込むことで,RAMIEの最先端性能が4.9%向上した。
本研究は半教師的外科的位相認識のための強力なベンチマークを確立した。
- 参考スコア(独自算出の注目度): 2.764986157003598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate surgical phase recognition is crucial for computer-assisted interventions and surgical video analysis. Annotating long surgical videos is labor-intensive, driving research toward leveraging unlabeled data for strong performance with minimal annotations. Although self-supervised learning has gained popularity by enabling large-scale pretraining followed by fine-tuning on small labeled subsets, semi-supervised approaches remain largely underexplored in the surgical domain. In this work, we propose a video transformer-based model with a robust pseudo-labeling framework. Our method incorporates temporal consistency regularization for unlabeled data and contrastive learning with class prototypes, which leverages both labeled data and pseudo-labels to refine the feature space. Through extensive experiments on the private RAMIE (Robot-Assisted Minimally Invasive Esophagectomy) dataset and the public Cholec80 dataset, we demonstrate the effectiveness of our approach. By incorporating unlabeled data, we achieve state-of-the-art performance on RAMIE with a 4.9% accuracy increase and obtain comparable results to full supervision while using only 1/4 of the labeled data on Cholec80. Our findings establish a strong benchmark for semi-supervised surgical phase recognition, paving the way for future research in this domain.
- Abstract(参考訳): 正確な外科的位相認識は、コンピュータ支援の介入と手術ビデオ解析に不可欠である。
長い手術ビデオの注釈付けは労働集約的であり、最小限のアノテーションで強力なパフォーマンスのためにラベル付けされていないデータを活用する研究を推進している。
自己教師あり学習は、大規模事前訓練と、小さなラベル付きサブセットの微調整によって人気を博しているが、セミ教師ありのアプローチは、外科領域では未熟なままである。
本研究では,ロバストな擬似ラベリングフレームワークを用いたビデオトランスフォーマーモデルを提案する。
提案手法では,ラベル付きデータと擬似ラベルを併用して特徴空間を改良し,非ラベル付きデータに対する時間的整合性正規化とクラスプロトタイプとの対比学習を取り入れた。
プライベートRAMIE(Robot-Assisted Minimally Invasive Esophagectomy)データセットと公共のColec80データセットに関する広範な実験を通じて、我々のアプローチの有効性を実証した。
ラベルなしデータを組み込むことで、RAMIEの最先端性能を4.9%向上させ、Colec80のラベル付きデータの1/4のみを使用しながら、完全な監視に匹敵する結果を得る。
本研究は半教師的外科的位相認識のための強力なベンチマークを確立し,今後の研究の道を開くものである。
関連論文リスト
- CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Jumpstarting Surgical Computer Vision [2.585559512929966]
我々は300以上の実験を通して、データセット合成を事前学習するためのレコメンデーションを開発する。
位相認識のための2つの公開ベンチマークにおいて、最先端の事前訓練よりも優れています。
論文 参考訳(メタデータ) (2023-12-10T18:54:16Z) - Benchmarking Pathology Feature Extractors for Whole Slide Image Classification [2.173830337391778]
弱教師付き全スライド画像分類は、計算病理学における重要な課題である。
特徴抽出器の総合的なベンチマークを行い、3つの重要な質問に答える。
我々は経験的に観察し、潜伏空間を解析することにより、染色の正規化や画像の増大は性能を低下させない。
提案手法は, 下流性能を比較するための新しい評価指標を開発し, 下流性能の指標として, 特徴抽出器の選択が最も重要な要因であることを示す。
論文 参考訳(メタデータ) (2023-11-20T13:58:26Z) - Shifting to Machine Supervision: Annotation-Efficient Semi and Self-Supervised Learning for Automatic Medical Image Segmentation and Classification [9.67209046726903]
我々は、自己教師型および半教師型学習の進歩を活用する新しいアプローチであるS4MIパイプラインを紹介する。
本研究は、これらの手法を3つの異なる医用画像データセット上で評価し、分類と分割作業の有効性を評価する。
注目すべきは、半教師付きアプローチはセグメンテーションにおいて優れた結果を示し、全データセットで50%少ないラベルを使用しながら、完全な教師付き手法よりも優れた結果を示したことだ。
論文 参考訳(メタデータ) (2023-11-17T04:04:29Z) - Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation for
Semi-Supervised Medical Image Segmentation [13.707121013895929]
本稿では, Pseudo-Labels Guided Data Augmentation を用いた新しい半教師付き学習手法である Dual-Decoder Consistency を提案する。
我々は、同じエンコーダを維持しながら、生徒と教師のネットワークに異なるデコーダを使用します。
ラベルのないデータから学習するために、教師ネットワークによって生成された擬似ラベルを作成し、擬似ラベルでトレーニングデータを増強する。
論文 参考訳(メタデータ) (2023-08-31T09:13:34Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Deep Semi-supervised Metric Learning with Dual Alignment for Cervical
Cancer Cell Detection [49.78612417406883]
子宮頸癌細胞検出のための新しい半教師付き深度測定法を提案する。
私たちのモデルは、埋め込みメトリック空間を学習し、提案レベルとプロトタイプレベルの両方でセマンティック機能の二重アライメントを行います。
本研究は,240,860個の頸部細胞画像からなる半監督型頸部がん細胞検出のための大規模データセットを初めて構築した。
論文 参考訳(メタデータ) (2021-04-07T17:11:27Z) - Co-Generation and Segmentation for Generalized Surgical Instrument
Segmentation on Unlabelled Data [49.419268399590045]
正確な機器追跡と拡張現実オーバーレイには、ロボット支援手術のための外科用機器セグメンテーションが必要です。
深層学習法では手術器具のセグメンテーションに最先端のパフォーマンスが示されたが,結果はラベル付きデータに依存する。
本稿では,ロボットによる手術を含むさまざまなデータセット上で,これらの手法の限定的な一般化性を実証する。
論文 参考訳(メタデータ) (2021-03-16T18:41:18Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。