論文の概要: A Study on Self-Supervised Pretraining for Vision Problems in
Gastrointestinal Endoscopy
- arxiv url: http://arxiv.org/abs/2401.06278v1
- Date: Thu, 11 Jan 2024 22:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:41:50.986298
- Title: A Study on Self-Supervised Pretraining for Vision Problems in
Gastrointestinal Endoscopy
- Title(参考訳): 消化器内視鏡における視力障害に対する自己改善前トレーニングの検討
- Authors: Edward Sanderson and Bogdan J. Matuszewski
- Abstract要約: 本研究では, ResNet50 と ViT-B のバックボーンを事前訓練したモデルの性能について検討した。
その結果, 自己指導型プレトレーニングは, 教師型プレトレーニングよりも, GIEビジョンタスクに適したバックボーンを生成することが示唆された。
- 参考スコア(独自算出の注目度): 14.601496168598471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solutions to vision tasks in gastrointestinal endoscopy (GIE) conventionally
use image encoders pretrained in a supervised manner with ImageNet-1k as
backbones. However, the use of modern self-supervised pretraining algorithms
and a recent dataset of 100k unlabelled GIE images (Hyperkvasir-unlabelled) may
allow for improvements. In this work, we study the fine-tuned performance of
models with ResNet50 and ViT-B backbones pretrained in self-supervised and
supervised manners with ImageNet-1k and Hyperkvasir-unlabelled (self-supervised
only) in a range of GIE vision tasks. In addition to identifying the most
suitable pretraining pipeline and backbone architecture for each task, out of
those considered, our results suggest: that self-supervised pretraining
generally produces more suitable backbones for GIE vision tasks than supervised
pretraining; that self-supervised pretraining with ImageNet-1k is typically
more suitable than pretraining with Hyperkvasir-unlabelled, with the notable
exception of monocular depth estimation in colonoscopy; and that ViT-Bs are
more suitable in polyp segmentation and monocular depth estimation in
colonoscopy, ResNet50s are more suitable in polyp detection, and both
architectures perform similarly in anatomical landmark recognition and
pathological finding characterisation. We hope this work draws attention to the
complexity of pretraining for GIE vision tasks, informs this development of
more suitable approaches than the convention, and inspires further research on
this topic to help advance this development. Code available:
\underline{github.com/ESandML/SSL4GIE}
- Abstract(参考訳): 消化器内視鏡(GIE)における視覚タスクへの解決策は、従来、ImageNet-1kをバックボーンとして教師付き方法でトレーニングされたイメージエンコーダを使用する。
しかし、現代の自己教師付き事前学習アルゴリズムと100kの非ラベル付きGIE画像(Hyperkvasir-unlabelled)のデータセットを使用することで、改善が期待できる。
本稿では,ResNet50 と ViT-B のバックボーンを用いたモデルの性能を,ImageNet-1k と Hyperkvasir-unlabelled (自己教師のみ) を用いて,GIE ビジョンタスクにおいて事前訓練した。
In addition to identifying the most suitable pretraining pipeline and backbone architecture for each task, out of those considered, our results suggest: that self-supervised pretraining generally produces more suitable backbones for GIE vision tasks than supervised pretraining; that self-supervised pretraining with ImageNet-1k is typically more suitable than pretraining with Hyperkvasir-unlabelled, with the notable exception of monocular depth estimation in colonoscopy; and that ViT-Bs are more suitable in polyp segmentation and monocular depth estimation in colonoscopy, ResNet50s are more suitable in polyp detection, and both architectures perform similarly in anatomical landmark recognition and pathological finding characterisation.
我々は、この研究がGIEビジョンタスクの事前訓練の複雑さに注意を向け、大会よりも適切なアプローチをこの開発に通知し、この開発を促進するためにさらなる研究を促すことを願っている。
コード提供: \underline{github.com/ESandML/SSL4GIE}
関連論文リスト
- LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Pre-Trained Image Encoder for Generalizable Visual Reinforcement
Learning [27.304282924423095]
一般化可能ビジュアル強化学習(PIE-G)のための事前学習画像を提案する。
PIE-Gは、目に見えない視覚シナリオをゼロショットで一般化できる、シンプルで効果的なフレームワークである。
実証的な証拠は、PIE-Gがサンプル効率を向上し、一般化性能の点で従来の最先端手法を著しく上回っていることを示唆している。
論文 参考訳(メタデータ) (2022-12-17T12:45:08Z) - Self-Supervised Pretraining for 2D Medical Image Segmentation [0.0]
自己教師付き学習は、不正なデータに対して特定のドメインのモデルを事前訓練することで、手動でアノテートされたデータの必要性を下げる手段を提供する。
自然画像と対象領域固有の画像による自己教師付き事前学習は、最も速く、最も安定した下流収束をもたらす。
低データシナリオでは、教師付きImageNet事前トレーニングが最も正確であり、最小限のエラーに近づくためには100以上の注釈付きサンプルが必要である。
論文 参考訳(メタデータ) (2022-09-01T09:25:22Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - Efficient Visual Pretraining with Contrastive Detection [31.444554574326283]
そこで我々は,オブジェクトレベルの特徴を拡張的に識別するタスク表現を,新たな自己監督的,コントラスト的検出に導入する。
この目的は画像ごとに豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能をもたらします。
特に、私たちの最強のImageNet-pretrainedモデルは、これまでで最大の自己教師型システムであるSEERと同等に機能します。
論文 参考訳(メタデータ) (2021-03-19T14:05:12Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - Improving colonoscopy lesion classification using semi-supervised deep
learning [2.568264809297699]
半教師付き学習における最近の研究は、大量の未ラベルデータによるトレーニングから、画像の有意義な表現が得られることを示した。
大腸内視鏡検査では,教師なしのジグソー学習課題と教師付きトレーニングの併用により,病変の分類精度が最大9.8%向上した。
論文 参考訳(メタデータ) (2020-09-07T15:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。