論文の概要: Delving into Masked Autoencoders for Multi-Label Thorax Disease
Classification
- arxiv url: http://arxiv.org/abs/2210.12843v1
- Date: Sun, 23 Oct 2022 20:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:28:16.644140
- Title: Delving into Masked Autoencoders for Multi-Label Thorax Disease
Classification
- Title(参考訳): マルチラベル胸部疾患分類のためのマスクオートエンコーダへの埋め込み
- Authors: Junfei Xiao, Yutong Bai, Alan Yuille and Zongwei Zhou
- Abstract要約: ビジョントランスフォーマー (ViT) は、データハングリーの性質と注釈付き医療データの欠如により、医療タスクにおける畳み込みニューラルネットワーク (CNN) に劣る性能を示した。
本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。
以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。
- 参考スコア(独自算出の注目度): 16.635426201975587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has become one of the most popular neural
architectures due to its great scalability, computational efficiency, and
compelling performance in many vision tasks. However, ViT has shown inferior
performance to Convolutional Neural Network (CNN) on medical tasks due to its
data-hungry nature and the lack of annotated medical data. In this paper, we
pre-train ViTs on 266,340 chest X-rays using Masked Autoencoders (MAE) which
reconstruct missing pixels from a small part of each image. For comparison,
CNNs are also pre-trained on the same 266,340 X-rays using advanced
self-supervised methods (e.g., MoCo v2). The results show that our pre-trained
ViT performs comparably (sometimes better) to the state-of-the-art CNN
(DenseNet-121) for multi-label thorax disease classification. This performance
is attributed to the strong recipes extracted from our empirical studies for
pre-training and fine-tuning ViT. The pre-training recipe signifies that
medical reconstruction requires a much smaller proportion of an image (10% vs.
25%) and a more moderate random resized crop range (0.5~1.0 vs. 0.2~1.0)
compared with natural imaging. Furthermore, we remark that in-domain transfer
learning is preferred whenever possible. The fine-tuning recipe discloses that
layer-wise LR decay, RandAug magnitude, and DropPath rate are significant
factors to consider. We hope that this study can direct future research on the
application of Transformers to a larger variety of medical imaging tasks.
- Abstract(参考訳): Vision Transformer (ViT)は、その優れたスケーラビリティ、計算効率、多くのビジョンタスクにおける魅力的なパフォーマンスのために、最もポピュラーなニューラルネットワークアーキテクチャの1つになった。
しかしvitは、そのデータ格納性や注釈付き医療データの欠如により、畳み込みニューラルネットワーク(convolutional neural network, cnn)に劣るパフォーマンスを示している。
本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。
比較として、CNNは同じ266,340個のX線上で、高度な自己監督手法(例えばMoCo v2)で事前訓練されている。
以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。
この性能は、事前学習と微調整のための実証的研究から抽出した強いレシピに起因する。
このプリトレーニングレシピは、医学的再構築には、自然画像に比べて画像の比率(10%対25%)と適度な無作為な再サイズ(0.5〜1.0対0.2〜1.0)が必要であることを示している。
さらに,ドメイン内転校学習は可能な限り望ましいと述べる。
微調整のレシピでは、レイヤワイドLR崩壊、RandAug等級、DropPath速度が考慮すべき重要な要因であることが明らかにされている。
この研究は、トランスフォーマーの幅広い医療画像タスクへの応用に関する将来の研究を導くことを願っている。
関連論文リスト
- Self-supervised learning improves robustness of deep learning lung tumor segmentation to CT imaging differences [7.332652485849634]
自己教師付き学習(SSL)は、ラベルのないデータから有用な特徴表現を抽出する手法である。
我々は,Wild vs self-pretrained transformer (ViT) と階層型シフトウインドウ (Swin) モデルのロバストさとCT画像の違いを比較した。
肺腫瘍の分画におけるCT像像の違いは, 自己前置法よりも, 野生前置型ネットワークの方が, より堅牢であった。
論文 参考訳(メタデータ) (2024-05-14T14:35:21Z) - MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks [6.8948885302235325]
本稿では,入力医療画像と自然事前学習型視覚モデルとのギャップを埋めるために視覚刺激(VP)を導入する。
本稿では,分類損失と差分損失を含む共同学習損失関数を設計し,インパルス画像とプレーン画像のばらつきを記述した。
分布医学データセットの内訳では,本手法(90.33%)はFF(85.15%)を5.18%リードで上回りうる。
論文 参考訳(メタデータ) (2024-05-13T01:18:25Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Pretrained ViTs Yield Versatile Representations For Medical Images [4.443013185089128]
ヴィジュアルトランスフォーマー(ViT)はCNNの対抗馬として登場している。
いくつかの標準的な2次元医用画像ベンチマークのデータセットとタスクについて、一連の実験を行った。
以上の結果から,CNNはスクラッチからトレーニングすると性能が向上するが,ImageNetで事前トレーニングを行った場合,市販のビジョントランスフォーマーはCNNと同等に動作可能であることがわかった。
論文 参考訳(メタデータ) (2023-03-13T11:53:40Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Learning from few examples: Classifying sex from retinal images via deep
learning [3.9146761527401424]
基礎画像から患者の性別を分類するために,小データセット上でのDLの性能について紹介する。
約2500基の画像を用いて開発した本モデルでは,最大0.72点のAUCスコアが得られた。
これは、データセットサイズが1000倍近く減少しているにもかかわらず、わずか25%のパフォーマンス低下に相当する。
論文 参考訳(メタデータ) (2022-07-20T02:47:29Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。