論文の概要: Free Lunch for Surgical Video Understanding by Distilling
Self-Supervisions
- arxiv url: http://arxiv.org/abs/2205.09292v1
- Date: Thu, 19 May 2022 02:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:04:11.482867
- Title: Free Lunch for Surgical Video Understanding by Distilling
Self-Supervisions
- Title(参考訳): セルフスーパービジョン蒸留による手術ビデオ理解のためのフリーランチ
- Authors: Xinpeng Ding, Ziwei Liu and Xiaomeng Li
- Abstract要約: 外科的ビデオ理解のための強力な,かつ効率的なセルフスーパービジョンフレームワークを提案する。
私たちの重要な洞察は、大規模なジェネリックデータセットでトレーニングされた、公開可能なモデルから知識を抽出することです。
当社のフレームワークは,低データ体制下では魅力的な優位性を示している。
- 参考スコア(独自算出の注目度): 40.26183297128028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has witnessed great progress in vision and NLP;
recently, it also attracted much attention to various medical imaging
modalities such as X-ray, CT, and MRI. Existing methods mostly focus on
building new pretext self-supervision tasks such as reconstruction,
orientation, and masking identification according to the properties of medical
images. However, the publicly available self-supervision models are not fully
exploited. In this paper, we present a powerful yet efficient self-supervision
framework for surgical video understanding. Our key insight is to distill
knowledge from publicly available models trained on large generic datasets4 to
facilitate the self-supervised learning of surgical videos. To this end, we
first introduce a semantic-preserving training scheme to obtain our teacher
model, which not only contains semantics from the publicly available models,
but also can produce accurate knowledge for surgical data. Besides training
with only contrastive learning, we also introduce a distillation objective to
transfer the rich learned information from the teacher model to self-supervised
learning on surgical data. Extensive experiments on two surgical phase
recognition benchmarks show that our framework can significantly improve the
performance of existing self-supervised learning methods. Notably, our
framework demonstrates a compelling advantage under a low-data regime. Our code
is available at https://github.com/xmed-lab/DistillingSelf.
- Abstract(参考訳): 自己教師型学習は視力とNLPの進歩を目の当たりにしており、最近ではX線、CT、MRIといった様々な医学的画像モダリティにも注目が集まっている。
既存の手法は主に、医用画像の特性に応じて、再構築、配向、マスキング識別などの新しいプリテキスト・セルフ・スーパービジョン・タスクを構築することに焦点を当てている。
しかし、公に入手可能なセルフスーパービジョンモデルは十分に活用されていない。
本稿では,外科的ビデオ理解のための強力な自己監督フレームワークを提案する。
私たちの重要な洞察は、大きなジェネリックデータセット4でトレーニングされた公開モデルから知識を抽出し、手術ビデオの自己監督学習を促進することです。
この目的のために,我々はまず,教師モデルを得るための意味保存トレーニングスキームを導入する。
また, コントラスト学習のみによる学習に加えて, リッチな学習情報を教師モデルから手術データに基づく自己監督学習へ伝達する蒸留目的も紹介する。
2つの手術段階認識ベンチマークに関する広範囲な実験により,既存の自己教師あり学習法の性能が大幅に向上することを示した。
特に、私たちのフレームワークは低データ体制下で魅力的な優位性を示しています。
私たちのコードはhttps://github.com/xmed-lab/distillingselfで利用可能です。
関連論文リスト
- Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures [54.376834698110684]
本研究では,オープンな外科的eラーニングプラットフォームを通じて利用可能な手術ビデオ講義が,効果的な監視信号を提供することができるという考えを提起した。
我々は複数の補完的な自動音声認識システムを用いてテキストの書き起こしを生成する。
次に、多モーダル表現学習のための新しい方法、Surg - Surgery Vision Language Pre-trainingを提案する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Evaluating the Robustness of Self-Supervised Learning in Medical Imaging [57.20012795524752]
自己監督は、小さな注釈付きデータセット上でターゲットタスクを訓練する際の効果的な学習戦略であることを示した。
本研究では,自己監視学習によって訓練されたネットワークが,医療画像の文脈における完全監視学習と比較して,堅牢性と汎用性に優れていることを示した。
論文 参考訳(メタデータ) (2021-05-14T17:49:52Z) - SSLM: Self-Supervised Learning for Medical Diagnosis from MR Video [19.5917119072985]
本稿では,磁気共鳴(MR)ビデオクリップから空間解剖学的表現を学習するための自己教師型学習手法を提案する。
提案する前文モデルは意味のある空間的文脈不変表現を学習する。
異なる実験は、プリテキストモデルによって学習された特徴が下流タスクで説明可能なパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2021-04-21T12:01:49Z) - Big Self-Supervised Models Advance Medical Image Classification [36.23989703428874]
医療画像分類のための前訓練戦略としての自己監督学習の有効性を検討する。
本研究では,患者1例当たりの病理の複数の画像を用いたマルチインスタンスコントラスト学習(MICLe)法を提案する。
大規模な自己教師型モデルでは分布シフトに頑健であり,少数のラベル付き医療画像を用いて効率よく学習できることを示す。
論文 参考訳(メタデータ) (2021-01-13T17:36:31Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Self-Supervised Representation Learning for Detection of ACL Tear Injury
in Knee MR Videos [18.54362818156725]
本稿では,MRビデオクリップから伝達可能な特徴を学習するための自己教師付き学習手法を提案する。
我々の知る限りでは、MRビデオから損傷分類タスクを実行する教師付き学習モデルには、モデルによる決定についての説明がない。
論文 参考訳(メタデータ) (2020-07-15T15:35:47Z) - Recurrent and Spiking Modeling of Sparse Surgical Kinematics [0.8458020117487898]
ますます多くの研究が、手術ロボットが捉えたビデオやキネマティックなデータを機械学習で分析している。
本研究では,同様のスキルレベルの外科医を予測するために,キネマティックデータのみを用いることの可能性を検討する。
本報告では, 運動特性のみに基づいて, シミュレーションエクササイズにおいて, ほぼ完全スコアの手術者を特定することが可能である。
論文 参考訳(メタデータ) (2020-05-12T15:41:45Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。