論文の概要: A Study on Self-Supervised Pretraining for Vision Problems in
Gastrointestinal Endoscopy
- arxiv url: http://arxiv.org/abs/2401.06278v1
- Date: Thu, 11 Jan 2024 22:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:41:50.986298
- Title: A Study on Self-Supervised Pretraining for Vision Problems in
Gastrointestinal Endoscopy
- Title(参考訳): 消化器内視鏡における視力障害に対する自己改善前トレーニングの検討
- Authors: Edward Sanderson and Bogdan J. Matuszewski
- Abstract要約: 本研究では, ResNet50 と ViT-B のバックボーンを事前訓練したモデルの性能について検討した。
その結果, 自己指導型プレトレーニングは, 教師型プレトレーニングよりも, GIEビジョンタスクに適したバックボーンを生成することが示唆された。
- 参考スコア(独自算出の注目度): 14.601496168598471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solutions to vision tasks in gastrointestinal endoscopy (GIE) conventionally
use image encoders pretrained in a supervised manner with ImageNet-1k as
backbones. However, the use of modern self-supervised pretraining algorithms
and a recent dataset of 100k unlabelled GIE images (Hyperkvasir-unlabelled) may
allow for improvements. In this work, we study the fine-tuned performance of
models with ResNet50 and ViT-B backbones pretrained in self-supervised and
supervised manners with ImageNet-1k and Hyperkvasir-unlabelled (self-supervised
only) in a range of GIE vision tasks. In addition to identifying the most
suitable pretraining pipeline and backbone architecture for each task, out of
those considered, our results suggest: that self-supervised pretraining
generally produces more suitable backbones for GIE vision tasks than supervised
pretraining; that self-supervised pretraining with ImageNet-1k is typically
more suitable than pretraining with Hyperkvasir-unlabelled, with the notable
exception of monocular depth estimation in colonoscopy; and that ViT-Bs are
more suitable in polyp segmentation and monocular depth estimation in
colonoscopy, ResNet50s are more suitable in polyp detection, and both
architectures perform similarly in anatomical landmark recognition and
pathological finding characterisation. We hope this work draws attention to the
complexity of pretraining for GIE vision tasks, informs this development of
more suitable approaches than the convention, and inspires further research on
this topic to help advance this development. Code available:
\underline{github.com/ESandML/SSL4GIE}
- Abstract(参考訳): 消化器内視鏡(GIE)における視覚タスクへの解決策は、従来、ImageNet-1kをバックボーンとして教師付き方法でトレーニングされたイメージエンコーダを使用する。
しかし、現代の自己教師付き事前学習アルゴリズムと100kの非ラベル付きGIE画像(Hyperkvasir-unlabelled)のデータセットを使用することで、改善が期待できる。
本稿では,ResNet50 と ViT-B のバックボーンを用いたモデルの性能を,ImageNet-1k と Hyperkvasir-unlabelled (自己教師のみ) を用いて,GIE ビジョンタスクにおいて事前訓練した。
In addition to identifying the most suitable pretraining pipeline and backbone architecture for each task, out of those considered, our results suggest: that self-supervised pretraining generally produces more suitable backbones for GIE vision tasks than supervised pretraining; that self-supervised pretraining with ImageNet-1k is typically more suitable than pretraining with Hyperkvasir-unlabelled, with the notable exception of monocular depth estimation in colonoscopy; and that ViT-Bs are more suitable in polyp segmentation and monocular depth estimation in colonoscopy, ResNet50s are more suitable in polyp detection, and both architectures perform similarly in anatomical landmark recognition and pathological finding characterisation.
我々は、この研究がGIEビジョンタスクの事前訓練の複雑さに注意を向け、大会よりも適切なアプローチをこの開発に通知し、この開発を促進するためにさらなる研究を促すことを願っている。
コード提供: \underline{github.com/ESandML/SSL4GIE}
関連論文リスト
- LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Whether and When does Endoscopy Domain Pretraining Make Sense? [39.11134330259464]
自動内視鏡ビデオ解析は、医療コンピュータビジョンにおいて難しい課題である。
難易度は、手術シーンの複雑さと十分な量の注釈データがないことから生じる。
内視鏡前訓練型視覚変換器EndoViT(EndoViT)について紹介する。
論文 参考訳(メタデータ) (2023-03-30T18:01:26Z) - Pre-Trained Image Encoder for Generalizable Visual Reinforcement
Learning [27.304282924423095]
一般化可能ビジュアル強化学習(PIE-G)のための事前学習画像を提案する。
PIE-Gは、目に見えない視覚シナリオをゼロショットで一般化できる、シンプルで効果的なフレームワークである。
実証的な証拠は、PIE-Gがサンプル効率を向上し、一般化性能の点で従来の最先端手法を著しく上回っていることを示唆している。
論文 参考訳(メタデータ) (2022-12-17T12:45:08Z) - Self-Supervised Pretraining for 2D Medical Image Segmentation [0.0]
自己教師付き学習は、不正なデータに対して特定のドメインのモデルを事前訓練することで、手動でアノテートされたデータの必要性を下げる手段を提供する。
自然画像と対象領域固有の画像による自己教師付き事前学習は、最も速く、最も安定した下流収束をもたらす。
低データシナリオでは、教師付きImageNet事前トレーニングが最も正確であり、最小限のエラーに近づくためには100以上の注釈付きサンプルが必要である。
論文 参考訳(メタデータ) (2022-09-01T09:25:22Z) - VC-GPT: Visual Conditioned GPT for End-to-End Generative
Vision-and-Language Pre-training [9.511101155155957]
視覚と言語による事前学習モデル(VLM)は、クロスモーダル領域において大きな成功を収めているが、そのほとんどは、事前学習に数百万の並列画像キャプチャーデータを必要とする。
本研究では,視覚前訓練モデル (CLIP-ViT) をエンコーダとして,言語前訓練モデル (GPT2) をデコーダとして利用することにより,生成前訓練の必要性を減らすことに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-30T04:44:54Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - Efficient Visual Pretraining with Contrastive Detection [31.444554574326283]
そこで我々は,オブジェクトレベルの特徴を拡張的に識別するタスク表現を,新たな自己監督的,コントラスト的検出に導入する。
この目的は画像ごとに豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能をもたらします。
特に、私たちの最強のImageNet-pretrainedモデルは、これまでで最大の自己教師型システムであるSEERと同等に機能します。
論文 参考訳(メタデータ) (2021-03-19T14:05:12Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。