論文の概要: Pretrained ViTs Yield Versatile Representations For Medical Images
- arxiv url: http://arxiv.org/abs/2303.07034v3
- Date: Fri, 15 Nov 2024 15:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:08.001626
- Title: Pretrained ViTs Yield Versatile Representations For Medical Images
- Title(参考訳): 医用画像におけるVTの事前表現
- Authors: Christos Matsoukas, Johan Fredin Haslum, Moein Sorkhei, Magnus Söderberg, Kevin Smith,
- Abstract要約: ヴィジュアルトランスフォーマー(ViT)はCNNの対抗馬として登場している。
いくつかの標準的な2次元医用画像ベンチマークのデータセットとタスクについて、一連の実験を行った。
以上の結果から,CNNはスクラッチからトレーニングすると性能が向上するが,ImageNetで事前トレーニングを行った場合,市販のビジョントランスフォーマーはCNNと同等に動作可能であることがわかった。
- 参考スコア(独自算出の注目度): 4.443013185089128
- License:
- Abstract: Convolutional Neural Networks (CNNs) have reigned for a decade as the de facto approach to automated medical image diagnosis, pushing the state-of-the-art in classification, detection and segmentation tasks. Over the last years, vision transformers (ViTs) have appeared as a competitive alternative to CNNs, yielding impressive levels of performance in the natural image domain, while possessing several interesting properties that could prove beneficial for medical imaging tasks. In this work, we explore the benefits and drawbacks of transformer-based models for medical image classification. We conduct a series of experiments on several standard 2D medical image benchmark datasets and tasks. Our findings show that, while CNNs perform better if trained from scratch, off-the-shelf vision transformers can perform on par with CNNs when pretrained on ImageNet, both in a supervised and self-supervised setting, rendering them as a viable alternative to CNNs.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は10年間、医療画像の自動診断における事実上のアプローチとして支配され、分類、検出、セグメンテーションタスクの最先端を推し進めてきた。
近年では、視覚変換器(ViT)がCNNの代替品として登場し、自然画像領域のパフォーマンスが著しく向上した。
本研究では,医療画像分類におけるトランスフォーマーモデルの有用性と欠点について考察する。
いくつかの標準的な2次元医用画像ベンチマークのデータセットとタスクについて、一連の実験を行った。
以上の結果から,CNNはスクラッチからトレーニングした場合は性能が向上するが,ImageNetで事前トレーニングを行うと,市販のビジョントランスフォーマーはCNNと同等に動作し,教師付きおよび自己教師型の両方で動作し,CNNの代替となる可能性が示唆された。
関連論文リスト
- MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - A New Perspective to Boost Vision Transformer for Medical Image
Classification [33.215289791017064]
本稿では,トランスフォーマーバックボーンを用いた医用画像分類のための自己教師付き学習手法を提案する。
我々のBOLTは、自己教師型表現学習のための2つのネットワーク、すなわちオンラインとターゲットのブランチで構成されています。
医療画像分類におけるBOLTの優位性は,ImageNetの事前学習量や最先端の自己教師型学習手法と比較して検証した。
論文 参考訳(メタデータ) (2023-01-03T07:45:59Z) - Delving into Masked Autoencoders for Multi-Label Thorax Disease
Classification [16.635426201975587]
ビジョントランスフォーマー (ViT) は、データハングリーの性質と注釈付き医療データの欠如により、医療タスクにおける畳み込みニューラルネットワーク (CNN) に劣る性能を示した。
本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。
以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。
論文 参考訳(メタデータ) (2022-10-23T20:14:57Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z) - Transformer-Unet: Raw Image Processing with Unet [4.7944896477309555]
Unetの機能マップの代わりに、生画像にトランスフォーマーモジュールを追加することで、Transformer-Unetを提案する。
実験では、エンド・ツー・エンドのネットワークを構築し、従来の多くのUnetベースのアルゴリズムよりもセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2021-09-17T09:03:10Z) - Is it Time to Replace CNNs with Transformers for Medical Images? [2.216181561365727]
ヴィジュアルトランスフォーマー(ViT)はCNNの対抗馬として登場している。
これらの質問は、3つの主要な医療画像データセットに関する一連の実験で考察する。
論文 参考訳(メタデータ) (2021-08-20T08:01:19Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - TransMed: Transformers Advance Multi-modal Medical Image Classification [4.500880052705654]
畳み込みニューラルネットワーク(CNN)は、医療画像解析タスクで非常に競争力のあるパフォーマンスを示しています。
トランスフォーマーはコンピュータビジョンに適用され、大規模なデータセットで顕著な成功を収めた。
TransMedはCNNとトランスフォーマーの利点を組み合わせて、画像の低レベル特徴を効率的に抽出する。
論文 参考訳(メタデータ) (2021-03-10T08:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。