論文の概要: Transformer with Peak Suppression and Knowledge Guidance for
Fine-grained Image Recognition
- arxiv url: http://arxiv.org/abs/2107.06538v1
- Date: Wed, 14 Jul 2021 08:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:12:54.623838
- Title: Transformer with Peak Suppression and Knowledge Guidance for
Fine-grained Image Recognition
- Title(参考訳): 微細画像認識のためのピーク抑圧と知識指導を備えた変圧器
- Authors: Xinda Liu, Lili Wang, Xiaoguang Han
- Abstract要約: 本稿では,ピーク抑圧モジュールと知識誘導モジュールを備えたトランスフォーマーアーキテクチャを提案する。
ピーク抑制モジュールは、特徴学習プロセスにおいて最も識別性の高い部分に注意を向ける。
知識誘導モジュールは、ピーク抑圧モジュールから生成された画像ベース表現と学習可能な知識埋め込みセットを比較して、知識応答係数を求める。
- 参考スコア(独自算出の注目度): 24.02553270481428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained image recognition is challenging because discriminative clues
are usually fragmented, whether from a single image or multiple images. Despite
their significant improvements, most existing methods still focus on the most
discriminative parts from a single image, ignoring informative details in other
regions and lacking consideration of clues from other associated images. In
this paper, we analyze the difficulties of fine-grained image recognition from
a new perspective and propose a transformer architecture with the peak
suppression module and knowledge guidance module, which respects the
diversification of discriminative features in a single image and the
aggregation of discriminative clues among multiple images. Specifically, the
peak suppression module first utilizes a linear projection to convert the input
image into sequential tokens. It then blocks the token based on the attention
response generated by the transformer encoder. This module penalizes the
attention to the most discriminative parts in the feature learning process,
therefore, enhancing the information exploitation of the neglected regions. The
knowledge guidance module compares the image-based representation generated
from the peak suppression module with the learnable knowledge embedding set to
obtain the knowledge response coefficients. Afterwards, it formalizes the
knowledge learning as a classification problem using response coefficients as
the classification scores. Knowledge embeddings and image-based representations
are updated during training so that the knowledge embedding includes
discriminative clues for different images. Finally, we incorporate the acquired
knowledge embeddings into the image-based representations as comprehensive
representations, leading to significantly higher performance. Extensive
evaluations on the six popular datasets demonstrate the advantage of the
proposed method.
- Abstract(参考訳): 識別手がかりは通常、単一の画像からでも複数の画像からでも断片化されるため、きめ細かい画像認識は困難である。
重要な改善にもかかわらず、既存の手法のほとんどは1つの画像から最も識別可能な部分に焦点を当てており、他の地域での情報的な詳細を無視し、他の関連画像からのヒントを考慮していない。
本稿では,新たな視点から細粒画像認識の難しさを分析し,単一画像における識別特徴の多様化と複数画像間の識別手がかりの集約を考慮し,ピーク抑圧モジュールと知識誘導モジュールを用いたトランスフォーマティブアーキテクチャを提案する。
具体的には、ピーク抑圧モジュールは、まず線形投影を利用して入力画像をシーケンシャルトークンに変換する。
次に、変換器エンコーダが生成したアテンション応答に基づいてトークンをブロックする。
このモジュールは、特徴学習プロセスにおいて最も識別性の高い部分に注意を向け、無視された領域の情報利用を強化する。
知識誘導モジュールは、ピーク抑圧モジュールから生成された画像ベース表現と学習可能な知識埋め込みセットを比較し、知識応答係数を求める。
その後、応答係数を分類スコアとして、知識学習を分類問題として定式化する。
知識埋め込みとイメージベースの表現はトレーニング中に更新され、知識埋め込みは異なる画像の識別手がかりを含む。
最後に、取得した知識を画像に基づく表現に総合表現として組み込むことにより、パフォーマンスが大幅に向上する。
6つの一般的なデータセットに対する広範囲な評価は,提案手法の利点を示している。
関連論文リスト
- Knowledge Fused Recognition: Fusing Hierarchical Knowledge for Image Recognition through Quantitative Relativity Modeling and Deep Metric Learning [18.534970504136254]
画像クラスに関する階層的な事前知識を融合させるための,新しい深層計量学習手法を提案する。
画像分類を組み込んだ既存の深度学習は、主に画像クラス間の定性的相対性を利用している。
モデル潜在空間における量的相対性を利用して知識空間における距離を整列する新しい三重項損失関数項も提案され、提案された双対モダリティ融合法に組み込まれている。
論文 参考訳(メタデータ) (2024-07-30T07:24:33Z) - CoReFace: Sample-Guided Contrastive Regularization for Deep Face
Recognition [3.1677775852317085]
特徴表現学習に画像レベルの正規化を適用するために,CoReFace(Contrastive Regularization for Face Recognition)を提案する。
具体的には、サンプル誘導型コントラスト学習を用いて、画像と画像の関係を直接調整する。
コントラスト学習を顔認識に統合するため,画像の画質劣化を回避するために,画像の代わりに埋め込みを拡大する。
論文 参考訳(メタデータ) (2023-04-23T14:33:24Z) - SATS: Self-Attention Transfer for Continual Semantic Segmentation [50.51525791240729]
連続的なセマンティックセグメンテーションは、連続的な分類学習と同じ破滅的な忘れの問題に悩まされる。
本研究では,各画像内の要素間の関係について,知識に関連する新しいタイプの情報伝達を提案する。
関係情報は、トランスフォーマースタイルのセグメンテーションモデルにおける自己アテンションマップから有効に得ることができる。
論文 参考訳(メタデータ) (2022-03-15T06:09:28Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - Self-supervised Product Quantization for Deep Unsupervised Image
Retrieval [21.99902461562925]
改良されたディープラーニングベースのハッシュとベクトル量子化は、高速で大規模な画像検索システムを実現する。
本稿では,SPQ (Self-supervised Product Quantization) ネットワークと呼ばれる,ラベルフリーで,自己教師型で訓練された画像検索手法を提案する。
提案手法は,画像内容を分析して記述的特徴を抽出し,正確な検索のための画像表現の理解を可能にする。
論文 参考訳(メタデータ) (2021-09-06T05:02:34Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。