論文の概要: Is it Time to Replace CNNs with Transformers for Medical Images?
- arxiv url: http://arxiv.org/abs/2108.09038v1
- Date: Fri, 20 Aug 2021 08:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:36:26.436616
- Title: Is it Time to Replace CNNs with Transformers for Medical Images?
- Title(参考訳): CNNを医療用トランスフォーマーに置き換える時が来たか?
- Authors: Christos Matsoukas, Johan Fredin Haslum, Magnus S\"oderberg and Kevin
Smith
- Abstract要約: ヴィジュアルトランスフォーマー(ViT)はCNNの対抗馬として登場している。
これらの質問は、3つの主要な医療画像データセットに関する一連の実験で考察する。
- 参考スコア(独自算出の注目度): 2.216181561365727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have reigned for a decade as the de
facto approach to automated medical image diagnosis. Recently, vision
transformers (ViTs) have appeared as a competitive alternative to CNNs,
yielding similar levels of performance while possessing several interesting
properties that could prove beneficial for medical imaging tasks. In this work,
we explore whether it is time to move to transformer-based models or if we
should keep working with CNNs - can we trivially switch to transformers? If so,
what are the advantages and drawbacks of switching to ViTs for medical image
diagnosis? We consider these questions in a series of experiments on three
mainstream medical image datasets. Our findings show that, while CNNs perform
better when trained from scratch, off-the-shelf vision transformers using
default hyperparameters are on par with CNNs when pretrained on ImageNet, and
outperform their CNN counterparts when pretrained using self-supervision.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、医療画像の自動診断に対するデファクトアプローチとして10年間にわたって支配されてきた。
近年、視覚トランスフォーマー(vits)はcnnの代替品として登場し、同様のレベルの性能を実現しつつ、医療画像処理に有益ないくつかの興味深い特性を持っている。
この作業では、トランスフォーマーベースのモデルに移行する時期なのか、CNNで作業を続けるべきなのか、簡単にトランスフォーマーに切り替えられるのか、検討する。
もしそうなら、医用画像診断のためにViTsに切り替える利点と欠点は何でしょうか?
これらの質問は、3つの主要な医療画像データセットに関する一連の実験で考察する。
以上の結果から,既定ハイパーパラメータを用いた市販の視覚トランスフォーマーはimagenetで事前トレーニングした場合はcnnと同等であり,自己スーパービジョンで事前トレーニングした場合はcnnのトランスフォーマーよりも優れていた。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need [103.31261028244782]
視覚変換器は、その卓越したスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、畳み込みニューラルネットワーク(CNN)を徐々に置き換えている。
自己教師付き学習(SSL)に関する最近の研究は、サイムズ事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
論文 参考訳(メタデータ) (2023-12-09T22:23:57Z) - MobileUtr: Revisiting the relationship between light-weight CNN and
Transformer for efficient medical image segmentation [25.056401513163493]
本研究は,医療画像セグメンテーションのための軽量ユニバーサルネットワークにおけるCNNとトランスフォーマーの関係を再考する。
CNNに固有の帰納バイアスを活用するために、Transformerのような軽量CNNブロック(ConvUtr)をViTのパッチ埋め込みとして抽象化する。
CNNとTransformerをベースとした効率的な医用画像分割モデル(MobileUtr)を構築した。
論文 参考訳(メタデータ) (2023-12-04T09:04:05Z) - Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing [64.7892681641764]
我々は視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)を訓練する
Patch Mixingを用いたトレーニングでは,ViTは改善も劣化もしないことがわかった。
我々は、このトレーニング手法が、VTがすでに持っている能力をCNNでシミュレートする方法であると結論付けている。
論文 参考訳(メタデータ) (2023-06-30T17:59:53Z) - Pretrained ViTs Yield Versatile Representations For Medical Images [1.6613396383209904]
ヴィジュアルトランスフォーマー(ViT)はCNNの対抗馬として登場している。
いくつかの標準的な2次元医用画像ベンチマークのデータセットとタスクについて、一連の実験を行った。
以上の結果から,CNNはスクラッチからトレーニングすると性能が向上するが,ImageNetで事前トレーニングを行った場合,市販のビジョントランスフォーマーはCNNと同等に動作可能であることがわかった。
論文 参考訳(メタデータ) (2023-03-13T11:53:40Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z) - Semi-Supervised Medical Image Segmentation via Cross Teaching between
CNN and Transformer [11.381487613753004]
本稿では,CNN と Transformer の相互教育を導入することで,半教師付き医用画像セグメンテーションの枠組みを提案する。
特に、この研究は、CNNとトランスフォーマーを組み合わせて半教師付き医療画像セグメンテーションを行い、公的なベンチマークで有望な結果を得る最初の試みかもしれない。
論文 参考訳(メタデータ) (2021-12-09T13:22:38Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。