論文の概要: Fine-grained Recognition with Learnable Semantic Data Augmentation
- arxiv url: http://arxiv.org/abs/2309.00399v1
- Date: Fri, 1 Sep 2023 11:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 13:43:04.671406
- Title: Fine-grained Recognition with Learnable Semantic Data Augmentation
- Title(参考訳): 学習可能な意味データ拡張によるきめ細かい認識
- Authors: Yifan Pu, Yizeng Han, Yulin Wang, Junlan Feng, Chao Deng, Gao Huang
- Abstract要約: きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 68.48892326854494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained image recognition is a longstanding computer vision challenge
that focuses on differentiating objects belonging to multiple subordinate
categories within the same meta-category. Since images belonging to the same
meta-category usually share similar visual appearances, mining discriminative
visual cues is the key to distinguishing fine-grained categories. Although
commonly used image-level data augmentation techniques have achieved great
success in generic image classification problems, they are rarely applied in
fine-grained scenarios, because their random editing-region behavior is prone
to destroy the discriminative visual cues residing in the subtle regions. In
this paper, we propose diversifying the training data at the feature-level to
alleviate the discriminative region loss problem. Specifically, we produce
diversified augmented samples by translating image features along semantically
meaningful directions. The semantic directions are estimated with a covariance
prediction network, which predicts a sample-wise covariance matrix to adapt to
the large intra-class variation inherent in fine-grained images. Furthermore,
the covariance prediction network is jointly optimized with the classification
network in a meta-learning manner to alleviate the degenerate solution problem.
Experiments on four competitive fine-grained recognition benchmarks
(CUB-200-2011, Stanford Cars, FGVC Aircrafts, NABirds) demonstrate that our
method significantly improves the generalization performance on several popular
classification networks (e.g., ResNets, DenseNets, EfficientNets, RegNets and
ViT). Combined with a recently proposed method, our semantic data augmentation
approach achieves state-of-the-art performance on the CUB-200-2011 dataset. The
source code will be released.
- Abstract(参考訳): きめ細かい画像認識は、メタカテゴリ内の複数の下位カテゴリに属するオブジェクトの識別に焦点を当てた、長年にわたるコンピュータビジョンの課題である。
同じメタカテゴリに属する画像は、通常、類似した視覚的外観を共有するため、識別的視覚的手がかりがきめ細かいカテゴリーを識別する鍵となる。
一般に使用される画像レベルのデータ拡張技術は、一般的な画像分類問題において大きな成功を収めているが、微妙な領域に存在する識別的な視覚的手がかりを破壊する可能性があるため、細粒度シナリオではめったに適用されない。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
具体的には,画像特徴を意味的に意味のある方向に沿って翻訳することにより,多様な拡張サンプルを生成する。
サンプル毎の共分散行列を予測し、細粒画像に固有の大きなクラス内変動に対応する共分散予測ネットワークを用いて意味的方向を推定する。
さらに、共分散予測ネットワークをメタラーニング方法で分類ネットワークと共同最適化し、縮退した解問題を緩和する。
CUB-200-2011,Stanford Cars, FGVC Aircrafts, NABirdsの4つの競合する微粒化認識ベンチマーク実験により, この手法は, 一般的な分類ネットワーク(ResNets, DenseNets, EfficientNets, RegNets, ViT)における一般化性能を著しく向上することを示した。
最近の提案手法と組み合わせることで,cub-200-2011データセットの最先端性能を実現する。
ソースコードはリリースされます。
関連論文リスト
- Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Context-aware Attentional Pooling (CAP) for Fine-grained Visual
Classification [2.963101656293054]
深層畳み込みニューラルネットワーク(CNN)は、画像認識のための識別対象ポーズと部品情報をマイニングする強力な能力を示しています。
サブピクセル勾配による微妙な変化を効果的にとらえる新しいコンテキスト認識型注意プーリング(CAP)を提案する。
我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2021-01-17T10:15:02Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。