論文の概要: $\mathsf{CSMAE~}$:~Cataract Surgical Masked Autoencoder (MAE) based Pre-training
- arxiv url: http://arxiv.org/abs/2502.08822v1
- Date: Wed, 12 Feb 2025 22:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:32.104672
- Title: $\mathsf{CSMAE~}$:~Cataract Surgical Masked Autoencoder (MAE) based Pre-training
- Title(参考訳): $\mathsf{CSMAE~}$:~Cataract surgery Masked Autoencoder (MAE) based pre-training
- Authors: Nisarg A. Shah, Wele Gedara Chaminda Bandara, Shameema Skider, S. Swaroop Vedula, Vishal M. Patel,
- Abstract要約: 本研究では,白内障手術ビデオ解析のためのMasked Autoencoder (MAE) を用いた事前トレーニング手法を提案する。
マスク用のトークンをランダムに選択するのではなく、トークントークンの重要性に基づいて選択される。
このアプローチは、現在の最先端の自己教師型事前学習およびアダプタベースの学習手法を、かなりのマージンで超越している。
- 参考スコア(独自算出の注目度): 25.71088804562768
- License:
- Abstract: Automated analysis of surgical videos is crucial for improving surgical training, workflow optimization, and postoperative assessment. We introduce a CSMAE, Masked Autoencoder (MAE)-based pretraining approach, specifically developed for Cataract Surgery video analysis, where instead of randomly selecting tokens for masking, they are selected based on the spatiotemporal importance of the token. We created a large dataset of cataract surgery videos to improve the model's learning efficiency and expand its robustness in low-data regimes. Our pre-trained model can be easily adapted for specific downstream tasks via fine-tuning, serving as a robust backbone for further analysis. Through rigorous testing on a downstream step-recognition task on two Cataract Surgery video datasets, D99 and Cataract-101, our approach surpasses current state-of-the-art self-supervised pretraining and adapter-based transfer learning methods by a significant margin. This advancement not only demonstrates the potential of our MAE-based pretraining in the field of surgical video analysis but also sets a new benchmark for future research.
- Abstract(参考訳): 手術映像の自動解析は,手術訓練,ワークフロー最適化,術後評価の改善に不可欠である。
CSMAE, Masked Autoencoder (MAE) を用いた事前トレーニング手法を導入し, マスク用トークンをランダムに選択するのではなく, トークンの時空間的重要性に基づいて選択する。
我々は,白内障手術ビデオの大規模なデータセットを作成し,学習効率を向上し,低データ体制におけるロバスト性を高めた。
我々の事前訓練されたモデルは、微調整によって特定の下流タスクに容易に適応することができ、さらなる分析のための堅牢なバックボーンとして機能する。
この手法は,2つの白内障手術用ビデオデータセットD99と白内障-101の下流ステップ認識タスクの厳密なテストを通じて,現在最先端の自己指導型プレトレーニングおよびアダプタベースのトランスファー学習手法を著しく上回っている。
この進歩は、外科的ビデオ分析の分野でのMAEベースの事前トレーニングの可能性を示すだけでなく、将来の研究のための新しいベンチマークも設定する。
関連論文リスト
- SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - How Transferable Are Self-supervised Features in Medical Image
Classification Tasks? [0.7734726150561086]
トランスファーラーニングは、医学分類タスクにおけるラベル付きデータの欠如を軽減するための標準的プラクティスとなっている。
自己教師付き事前訓練モデルでは、教師付きモデルよりもリッチな埋め込みが得られる。
Dynamic Visual Meta-Embedding (DVME)は、複数のモデルから事前学習された埋め込みを融合するエンドツーエンドのトランスファー学習アプローチである。
論文 参考訳(メタデータ) (2021-08-23T10:39:31Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Recurrent and Spiking Modeling of Sparse Surgical Kinematics [0.8458020117487898]
ますます多くの研究が、手術ロボットが捉えたビデオやキネマティックなデータを機械学習で分析している。
本研究では,同様のスキルレベルの外科医を予測するために,キネマティックデータのみを用いることの可能性を検討する。
本報告では, 運動特性のみに基づいて, シミュレーションエクササイズにおいて, ほぼ完全スコアの手術者を特定することが可能である。
論文 参考訳(メタデータ) (2020-05-12T15:41:45Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z) - Automatic Data Augmentation via Deep Reinforcement Learning for
Effective Kidney Tumor Segmentation [57.78765460295249]
医用画像セグメンテーションのための新しい学習ベースデータ拡張法を開発した。
本手法では,データ拡張モジュールと後続のセグメンテーションモジュールをエンドツーエンドのトレーニング方法で一貫した損失と,革新的に組み合わせる。
提案法の有効性を検証したCT腎腫瘍分節法について,本法を広範囲に評価した。
論文 参考訳(メタデータ) (2020-02-22T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。