論文の概要: Data Augmentation Vision Transformer for Fine-grained Image
Classification
- arxiv url: http://arxiv.org/abs/2211.12879v2
- Date: Thu, 24 Nov 2022 08:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 12:07:20.072664
- Title: Data Augmentation Vision Transformer for Fine-grained Image
Classification
- Title(参考訳): 微細画像分類のためのデータ拡張ビジョン変換器
- Authors: Chao Hu, Liqiang Zhu, Weibin Qiu, and Weijie Wu
- Abstract要約: 本稿では,データ拡張に基づくデータ拡張ビジョントランス (DAVT) を提案する。
また,階層的注意選択(HAS)手法を提案し,学習レベル間の識別マーカーの識別能力を向上させる。
実験結果から,CUB-200-2011とStanford Dogsの2つの一般データセットにおける本手法の精度は,従来の主流手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 1.6211899643913996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the vision transformer (ViT) has made breakthroughs in image
recognition. Its self-attention mechanism (MSA) can extract discriminative
labeling information of different pixel blocks to improve image classification
accuracy. However, the classification marks in their deep layers tend to ignore
local features between layers. In addition, the embedding layer will be
fixed-size pixel blocks. Input network Inevitably introduces additional image
noise. To this end, we study a data augmentation vision transformer (DAVT)
based on data augmentation and proposes a data augmentation method for
attention cropping, which uses attention weights as the guide to crop images
and improve the ability of the network to learn critical features. Secondly, we
also propose a hierarchical attention selection (HAS) method, which improves
the ability of discriminative markers between levels of learning by filtering
and fusing labels between levels. Experimental results show that the accuracy
of this method on the two general datasets, CUB-200-2011, and Stanford Dogs, is
better than the existing mainstream methods, and its accuracy is 1.4\% and
1.6\% higher than the original ViT, respectively
- Abstract(参考訳): 近年、視覚変換器(ViT)は画像認識において画期的な進歩を遂げている。
その自己認識機構(MSA)は、異なる画素ブロックの識別ラベル情報を抽出し、画像分類精度を向上させる。
しかし、その深層における分類マークは、層間の局所的な特徴を無視する傾向がある。
さらに、埋め込み層は固定サイズのピクセルブロックになる。
入力ネットワーク 必然的に画像ノイズを導入する。
本研究では,データ拡張に基づくデータ拡張ビジョントランスフォーマ(davt)について検討し,注意重みを画像の収穫ガイドとして活用し,ネットワークが重要な特徴を学習する能力を向上させるアテンショントリッピングのためのデータ拡張手法を提案する。
次に,階層的注意選択(HAS)手法を提案する。この手法は,学習レベル間の識別マーカーのフィルタリングとラベルの融合により,学習レベル間の識別性を向上する。
実験の結果,CUB-200-2011とStanford Dogsの2つの一般的なデータセット上での精度は,従来の主流手法よりも優れており,その精度は元のViTよりも1.4\%,1.6\%高いことがわかった。
関連論文リスト
- Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing [7.202931445597172]
トランスフォーマーは、自然言語処理における優れた性能のため、コンピュータビジョンの分野で応用されている。
本稿ではネストアルゴリズムを導入し,Nested-TNTを画像分類タスクに適用する。
この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
論文 参考訳(メタデータ) (2024-04-20T17:56:14Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - A Survey of Graph and Attention Based Hyperspectral Image Classification
Methods for Remote Sensing Data [5.1901440366375855]
ハイパースペクトルイメージング(HSI)の分類におけるディープラーニング技術の利用は急速に増加している。
最近の手法では、グラフ畳み込みネットワークの利用と、予測にノード機能を使用するユニークな機能についても検討されている。
論文 参考訳(メタデータ) (2023-10-16T00:42:25Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - TransHP: Image Classification with Hierarchical Prompting [27.049504972041834]
本稿では階層画像分類(HIC)タスクの階層的プロンプト機構について検討する。
我々は、人間の視覚認識をよく模倣していると考えている。つまり、人類は祖先クラスを、子孫クラス間の微妙な違いに焦点をあてるプロンプトとして使うかもしれない。
論文 参考訳(メタデータ) (2023-04-13T10:37:41Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Weakly-supervised Generative Adversarial Networks for medical image
classification [1.479639149658596]
Weakly-Supervised Generative Adversarial Networks (WSGAN) と呼ばれる新しい医用画像分類アルゴリズムを提案する。
WSGANは、ラベルのない少数の実画像のみを使用して、偽画像やマスク画像を生成し、トレーニングセットのサンプルサイズを拡大する。
ラベル付きデータやラベルなしデータの少ない使用により,WSGANは比較的高い学習性能が得られることを示す。
論文 参考訳(メタデータ) (2021-11-29T15:38:48Z) - DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology
Image Analysis [78.78181964748144]
スライド画像全体(WSI)を分類するための弱教師付きフレームワークを提案する。
WSIは通常、パッチレベルのラベルを持つパッチワイド分類によって処理される。
イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。
論文 参考訳(メタデータ) (2021-09-13T09:10:43Z) - Mask guided attention for fine-grained patchy image classification [22.91753200323264]
きめ細かいパッチ画像分類のためのマスク誘導注意法(MGA)を提案する。
提案手法の有効性を3つの公開パッチ画像データセットで検証する。
我々のアブレーション研究は、MGAがSoyCultivarVeinおよびBtfPISデータセットの精度を2.25%、2%向上させることを示している。
論文 参考訳(メタデータ) (2021-02-04T17:54:50Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。