論文の概要: R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2204.10095v1
- Date: Thu, 21 Apr 2022 13:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:35:00.809643
- Title: R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction
- Title(参考訳): R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction
- Authors: Yu Wang, Shuo Ye, Shujian Yu, Xinge You
- Abstract要約: 細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
- 参考スコア(独自算出の注目度): 21.11038841356125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained visual categorization (FGVC) aims to discriminate similar
subcategories, whose main challenge is the large intraclass diversities and
subtle inter-class differences. Existing FGVC methods usually select
discriminant regions found by a trained model, which is prone to neglect other
potential discriminant information. On the other hand, the massive interactions
between the sequence of image patches in ViT make the resulting class-token
contain lots of redundant information, which may also impacts FGVC performance.
In this paper, we present a novel approach for FGVC, which can simultaneously
make use of partial yet sufficient discriminative information in environmental
cues and also compress the redundant information in class-token with respect to
the target. Specifically, our model calculates the ratio of high-weight regions
in a batch, adaptively adjusts the masking threshold and achieves moderate
extraction of background information in the input space. Moreover, we also use
the Information Bottleneck~(IB) approach to guide our network to learn a
minimum sufficient representations in the feature space. Experimental results
on three widely-used benchmark datasets verify that our approach can achieve
outperforming performance than other state-of-the-art approaches and baseline
models.
- Abstract(参考訳): FGVCは、クラス内の大きな多様性と微妙なクラス間差異が主な課題である類似のサブカテゴリを識別することを目的としている。
既存のFGVC法は通常、訓練されたモデルで見つかる識別領域を選択するが、他の潜在的な識別情報を無視する傾向がある。
一方、ViTにおける画像パッチのシーケンス間の大きな相互作用により、結果として得られるクラストークンには多くの冗長な情報が含まれており、FGVCの性能にも影響を及ぼす可能性がある。
本稿では,fgvcに対して,環境指標における部分的かつ十分な識別情報を同時に活用し,かつ,目的に対してクラストケンの冗長情報を圧縮する新しい手法を提案する。
具体的には、バッチ内のハイウェイト領域の比率を算出し、マスキング閾値を適応的に調整し、入力空間における背景情報の適度な抽出を実現する。
さらに,我々は情報ボトルネック~(ib)アプローチを用いてネットワークを誘導し,機能空間における最小限の表現を学習する。
3つの広く使われているベンチマークデータセットの実験結果は、我々のアプローチが他の最先端のアプローチやベースラインモデルよりも優れたパフォーマンスを達成できることを確認した。
関連論文リスト
- Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Salient Mask-Guided Vision Transformer for Fine-Grained Classification [48.1425692047256]
きめ細かい視覚分類(FGVC)は、コンピュータビジョンの問題である。
その主な難しさの1つは、最も差別的な階級間のばらつきを捉えることである。
シンプルで効果的なマスク誘導型視覚変換器(SM-ViT)を導入する。
論文 参考訳(メタデータ) (2023-05-11T19:24:33Z) - Class-Specific Variational Auto-Encoder for Content-Based Image
Retrieval [95.42181254494287]
本稿では,変分自動エンコーダ(VAE)に対する正規化損失を提案する。
その結果、モデルは、関心のクラスに属するデータを他のあらゆる可能性から識別することを学ぶ。
実験の結果,提案手法はドメイン内およびドメイン外検索における競合よりも優れていた。
論文 参考訳(メタデータ) (2023-04-23T19:51:25Z) - A Compositional Feature Embedding and Similarity Metric for
Ultra-Fine-Grained Visual Categorization [16.843126268445726]
きめ細かい視覚分類(FGVC)は、クラス間の差異が小さいオブジェクトを分類することを目的としている。
本稿では,超微細な視覚分類のための新しい構成的特徴埋め込みと類似度指標(CECS)を提案する。
最近のベンチマーク手法を用いた2つの超FGVCデータセットと1つのFGVCデータセットの実験結果から,提案手法が最先端性能を実現することを一貫して示している。
論文 参考訳(メタデータ) (2021-09-25T15:05:25Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Interpretable Attention Guided Network for Fine-grained Visual
Classification [36.657203916383594]
細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。
細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。
論文 参考訳(メタデータ) (2021-03-08T12:27:51Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。