論文の概要: CNN-based Local Vision Transformer for COVID-19 Diagnosis
- arxiv url: http://arxiv.org/abs/2207.02027v1
- Date: Tue, 5 Jul 2022 13:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 19:25:05.892326
- Title: CNN-based Local Vision Transformer for COVID-19 Diagnosis
- Title(参考訳): CNNを用いた新型コロナウイルス診断用ローカルビジョントランス
- Authors: Hongyan Xu, Xiu Su, Dadong Wang
- Abstract要約: Vision Transformer (ViT) は、その大域的受容野により、画像分類に大きな可能性を示している。
我々は、小さなCOVID-19データセット上でのViTベースのアーキテクチャのパフォーマンスを改善するために、Transformer for COVID-19 (COVT)と呼ばれる新しい構造を提案する。
- 参考スコア(独自算出の注目度): 5.042918676734868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning technology can be used as an assistive technology to help
doctors quickly and accurately identify COVID-19 infections. Recently, Vision
Transformer (ViT) has shown great potential towards image classification due to
its global receptive field. However, due to the lack of inductive biases
inherent to CNNs, the ViT-based structure leads to limited feature richness and
difficulty in model training. In this paper, we propose a new structure called
Transformer for COVID-19 (COVT) to improve the performance of ViT-based
architectures on small COVID-19 datasets. It uses CNN as a feature extractor to
effectively extract local structural information, and introduces average
pooling to ViT's Multilayer Perception(MLP) module for global information.
Experiments show the effectiveness of our method on the two COVID-19 datasets
and the ImageNet dataset.
- Abstract(参考訳): 深層学習技術は、医師が新型コロナウイルス感染症を迅速かつ正確に識別するための補助技術として使用できる。
近年、視覚変換器(ViT)は、その大域的受容野により、画像分類に大きな可能性を示している。
しかし、cnnに固有の帰納的バイアスがないため、vitベースの構造は機能の豊富さとモデルトレーニングの困難さに繋がる。
本稿では、小型のCOVID-19データセット上でのViTベースのアーキテクチャの性能を向上させるために、Transformer for COVID-19(COVT)と呼ばれる新しい構造を提案する。
ローカル構造情報を効率的に抽出するための特徴抽出器としてCNNを使用し、グローバル情報のためのViTのMultilayer Perception(MLP)モジュールに平均プーリングを導入する。
2つのCOVID-19データセットとImageNetデータセットに対して,本手法の有効性を示す実験を行った。
関連論文リスト
- Explainability of Deep Neural Networks for Brain Tumor Detection [0.0828720658988688]
我々は、実世界の医療データに基づいて、様々なモデルの性能を評価するために、説明可能なAI(XAI)技術を適用した。
より浅いアーキテクチャを持つCNNは、小さなデータセットに対してより効果的であり、医療的な意思決定をサポートすることができる。
論文 参考訳(メタデータ) (2024-10-10T05:01:21Z) - Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - Vision Transformers for Small Histological Datasets Learned through
Knowledge Distillation [1.4724454726700604]
視覚変換器(ViT)は、診断アルゴリズムを実行する前に、人工物を検出して排除することができる。
堅牢で一般化されたViTを開発するための簡単な方法は、巨大なデータセットでそれらをトレーニングすることだ。
気泡検出タスクにおけるViTの分類性能を向上させるための生徒-教師のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-27T05:09:03Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - CCAT-NET: A Novel Transformer Based Semi-supervised Framework for
Covid-19 Lung Lesion Segmentation [8.90602077660994]
本稿では,CNNとTransformerを組み合わせた新しいネットワーク構造を提案する。
また,ラベル付きデータの不足に対処するために,効率的な半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T14:05:48Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。