論文の概要: Mask guided attention for fine-grained patchy image classification
- arxiv url: http://arxiv.org/abs/2102.02771v1
- Date: Thu, 4 Feb 2021 17:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:24:28.578326
- Title: Mask guided attention for fine-grained patchy image classification
- Title(参考訳): 微細パッチ画像分類のためのマスクガイド注意
- Authors: Jun Wang, Xiaohan Yu, Yongsheng Gao
- Abstract要約: きめ細かいパッチ画像分類のためのマスク誘導注意法(MGA)を提案する。
提案手法の有効性を3つの公開パッチ画像データセットで検証する。
我々のアブレーション研究は、MGAがSoyCultivarVeinおよびBtfPISデータセットの精度を2.25%、2%向上させることを示している。
- 参考スコア(独自算出の注目度): 22.91753200323264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a novel mask guided attention (MGA) method for
fine-grained patchy image classification. The key challenge of fine-grained
patchy image classification lies in two folds, ultra-fine-grained
inter-category variances among objects and very few data available for
training. This motivates us to consider employing more useful supervision
signal to train a discriminative model within limited training samples.
Specifically, the proposed MGA integrates a pre-trained semantic segmentation
model that produces auxiliary supervision signal, i.e., patchy attention mask,
enabling a discriminative representation learning. The patchy attention mask
drives the classifier to filter out the insignificant parts of images (e.g.,
common features between different categories), which enhances the robustness of
MGA for the fine-grained patchy image classification. We verify the
effectiveness of our method on three publicly available patchy image datasets.
Experimental results demonstrate that our MGA method achieves superior
performance on three datasets compared with the state-of-the-art methods. In
addition, our ablation study shows that MGA improves the accuracy by 2.25% and
2% on the SoyCultivarVein and BtfPIS datasets, indicating its practicality
towards solving the fine-grained patchy image classification.
- Abstract(参考訳): 本研究では、微細なパッチ画像分類のための新しいマスク誘導注意(MGA)法を提案する。
きめ細かい画像分類の鍵となる課題は、2つの折りたたみ、超きめ細かなカテゴリー間ばらつき、そして訓練に利用できるデータが少ないことである。
このことは、限られたトレーニングサンプル内で識別モデルを訓練するために、より有用な監視信号を使用することを検討する動機となっている。
具体的には,事前学習されたセマンティクスセグメンテーションモデルを統合し,補助監督信号,すなわちパッチイアテンションマスクを生成し,識別表現学習を可能にする。
パッチ注意マスクは、分類器を駆動して、画像の重要部分(例えば、異なるカテゴリ間の共通特徴)をフィルタリングし、きめ細かいパッチ画像分類のためのMGAの堅牢性を高める。
提案手法の有効性を3つの公開パッチ画像データセットで検証する。
実験により,MGA法は最先端手法と比較して3つのデータセットにおいて優れた性能を示すことが示された。
また、MGAがSoyCultivarVeinおよびBtfPISデータセットの精度を2.25%および2%向上させ、微細なパッチ画像分類の解決に向けた実用性を示している。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image
Segmentation [29.15746532186427]
HybridMIMは3次元医用画像セグメンテーションのためのマスク付き画像モデリングに基づく新しいハイブリッド自己教師型学習手法である。
医用画像の意味情報を3段階に分けて学習し,1)3次元画像の重要な内容を再構成する部分領域予測を行うことにより,トレーニング前の時間負担を大幅に軽減する。
提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。
論文 参考訳(メタデータ) (2023-03-18T04:43:12Z) - Data Augmentation Vision Transformer for Fine-grained Image
Classification [1.6211899643913996]
本稿では,データ拡張に基づくデータ拡張ビジョントランス (DAVT) を提案する。
また,階層的注意選択(HAS)手法を提案し,学習レベル間の識別マーカーの識別能力を向上させる。
実験結果から,CUB-200-2011とStanford Dogsの2つの一般データセットにおける本手法の精度は,従来の主流手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-23T11:34:11Z) - New wrapper method based on normalized mutual information for dimension
reduction and classification of hyperspectral images [0.0]
正規化相互情報(NMI)と誤り確率(PE)に基づく新しいラッパー手法を提案する。
NASAのAVIRIS(Airborne Visible/Infrared Imaging Spectrometer Sensor)が捉えた、2つの挑戦的なハイパースペクトルベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2022-10-25T21:17:11Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。