論文の概要: Improving Fine-Grained Visual Recognition in Low Data Regimes via
Self-Boosting Attention Mechanism
- arxiv url: http://arxiv.org/abs/2208.00617v1
- Date: Mon, 1 Aug 2022 05:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:01:13.797084
- Title: Improving Fine-Grained Visual Recognition in Low Data Regimes via
Self-Boosting Attention Mechanism
- Title(参考訳): 自己発声注意機構による低データレジームにおける微視的視覚認識の改善
- Authors: Yangyang Shu, Baosheng Yu, Haiming Xu, Lingqiao Liu
- Abstract要約: SAM(Self-boosting attention mechanism)は、ネットワークを正規化して、サンプルやクラス間で共有されるキー領域に集中するための新しい手法である。
我々はSAMを用いて、二線形プール方式で畳み込みマップをプールするために複数の注意マップを作成する変種を開発する。
- 参考スコア(独自算出の注目度): 27.628260249895973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of fine-grained visual recognition often lies in discovering
the key discriminative regions. While such regions can be automatically
identified from a large-scale labeled dataset, a similar method might become
less effective when only a few annotations are available. In low data regimes,
a network often struggles to choose the correct regions for recognition and
tends to overfit spurious correlated patterns from the training data. To tackle
this issue, this paper proposes the self-boosting attention mechanism, a novel
method for regularizing the network to focus on the key regions shared across
samples and classes. Specifically, the proposed method first generates an
attention map for each training image, highlighting the discriminative part for
identifying the ground-truth object category. Then the generated attention maps
are used as pseudo-annotations. The network is enforced to fit them as an
auxiliary task. We call this approach the self-boosting attention mechanism
(SAM). We also develop a variant by using SAM to create multiple attention maps
to pool convolutional maps in a style of bilinear pooling, dubbed SAM-Bilinear.
Through extensive experimental studies, we show that both methods can
significantly improve fine-grained visual recognition performance on low data
regimes and can be incorporated into existing network architectures. The source
code is publicly available at: https://github.com/GANPerf/SAM
- Abstract(参考訳): きめ細かい視覚認識の課題は、しばしば重要な識別領域を発見することである。
このような領域は大規模ラベル付きデータセットから自動的に識別できるが、アノテーションが少しあれば、同様の手法は効果が低下する可能性がある。
低いデータ体制では、ネットワークは認識のための適切な領域を選択するのに苦労し、トレーニングデータから急激な相関パターンをオーバーフィットする傾向がある。
そこで本研究では,サンプルやクラス間で共有されるキー領域に注目するネットワークを正規化するための,自己起動型アテンション機構を提案する。
具体的には,まず,各トレーニング画像に対する注意マップを生成し,その特徴を識別する識別部分を強調する。
そして、生成された注目マップを擬似アノテーションとして使用する。
ネットワークはそれらを補助的なタスクとして適合するように強制される。
このアプローチを自発注意機構(SAM)と呼ぶ。
また、SAM-Bilinearと呼ばれるバイリニアプール方式の畳み込みマップを、SAMを用いて複数の注意マップを作成することで、変種を開発する。
広範な実験により,両手法は低データ領域における細粒度画像認識性能を著しく向上し,既存のネットワークアーキテクチャに組み込むことができることを示した。
ソースコードは、https://github.com/GANPerf/SAMで公開されている。
関連論文リスト
- MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps [6.414068793245697]
我々は,パラメータ効率のよい微調整戦略であるMapSAMを紹介した。
具体的には、画像エンコーダにドメイン固有の知識を統合するために、Weight-Decomposed Low-Rank Adaptation (DoRA) を用いる。
手動入力を必要としない自動プロンプト生成プロセスを開発した。
論文 参考訳(メタデータ) (2024-11-11T13:18:45Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z) - Clustering augmented Self-Supervised Learning: Anapplication to Land
Cover Mapping [10.720852987343896]
本稿では,自己教師型学習のためのクラスタリングに基づくプレテキストタスクを用いて,土地被覆マッピングの新しい手法を提案する。
社会的に関係のある2つのアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-08-16T19:35:43Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Attentive WaveBlock: Complementarity-enhanced Mutual Networks for
Unsupervised Domain Adaptation in Person Re-identification and Beyond [97.25179345878443]
本稿では,新しい軽量モジュールであるAttentive WaveBlock (AWB)を提案する。
AWBは相互学習の二重ネットワークに統合され、相互学習の相補性を高め、擬似ラベルのノイズをさらに抑えることができる。
実験により, 提案手法は, 複数のUDA人物再識別タスクを大幅に改善し, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-06-11T15:40:40Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z) - SpotNet: Self-Attention Multi-Task Network for Object Detection [11.444576186559487]
我々は,背景サブトラクションや光フローを用いて,半教師付き方式で前景/後景セグメンテーションラベルを作成する。
ネットワーク内のセグメンテーションマップを自己認識機構として使用して,境界ボックスの生成に使用する特徴マップを重み付けする。
この手法を用いることで,2つの交通監視データセットにおいて,重要なmAP改善が得られることを示す。
論文 参考訳(メタデータ) (2020-02-13T14:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。