論文の概要: NOAH: Learning Pairwise Object Category Attentions for Image
Classification
- arxiv url: http://arxiv.org/abs/2402.02377v1
- Date: Sun, 4 Feb 2024 07:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:59:57.934762
- Title: NOAH: Learning Pairwise Object Category Attentions for Image
Classification
- Title(参考訳): noah: 画像分類のためのペアワイズオブジェクトカテゴリの注意を学習する
- Authors: Chao Li, Aojun Zhou, Anbang Yao
- Abstract要約: Non-glObal Attentive Head (NOAH)は、ペアワイドオブジェクトカテゴリーアテンション (POCA) と呼ばれる新しい点積アテンションである。
ドロップイン設計として、NOAHは様々な種類のDNNの既存のヘッドを置き換えるのに容易に使用できる。
- 参考スコア(独自算出の注目度): 26.077836657775403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A modern deep neural network (DNN) for image classification tasks typically
consists of two parts: a backbone for feature extraction, and a head for
feature encoding and class predication. We observe that the head structures of
mainstream DNNs adopt a similar feature encoding pipeline, exploiting global
feature dependencies while disregarding local ones. In this paper, we revisit
the feature encoding problem, and propose Non-glObal Attentive Head (NOAH) that
relies on a new form of dot-product attention called pairwise object category
attention (POCA), efficiently exploiting spatially dense category-specific
attentions to augment classification performance. NOAH introduces a neat
combination of feature split, transform and merge operations to learn POCAs at
local to global scales. As a drop-in design, NOAH can be easily used to replace
existing heads of various types of DNNs, improving classification performance
while maintaining similar model efficiency. We validate the effectiveness of
NOAH on ImageNet classification benchmark with 25 DNN architectures spanning
convolutional neural networks, vision transformers and multi-layer perceptrons.
In general, NOAH is able to significantly improve the performance of
lightweight DNNs, e.g., showing 3.14\%|5.3\%|1.9\% top-1 accuracy improvement
to MobileNetV2 (0.5x)|Deit-Tiny (0.5x)|gMLP-Tiny (0.5x). NOAH also generalizes
well when applied to medium-size and large-size DNNs. We further show that NOAH
retains its efficacy on other popular multi-class and multi-label image
classification benchmarks as well as in different training regimes, e.g.,
showing 3.6\%|1.1\% mAP improvement to large ResNet101|ViT-Large on MS-COCO
dataset. Project page: https://github.com/OSVAI/NOAH.
- Abstract(参考訳): 画像分類タスクのための現代のディープニューラルネットワーク(DNN)は通常、特徴抽出のためのバックボーンと、特徴符号化とクラス述語のためのヘッドの2つの部分で構成される。
メインストリームDNNのヘッド構造は類似の機能符号化パイプラインを採用し,グローバルな機能依存を生かし,ローカルな機能を無視する。
本稿では, 特徴符号化問題を再考し, 対物カテゴリー注意(POCA, pairwise object category attention)と呼ばれる新しい形の点積注意(NOAH)を提案し, 空間的に密接なカテゴリー別注意を効果的に活用し, 拡張分類性能を向上させる。
NOAHは、ローカルからグローバルスケールでPOCAを学ぶために、機能分割、変換、マージ操作の巧妙な組み合わせを導入している。
ドロップイン設計では、NOAHは様々な種類のDNNの既存のヘッドを置き換え、類似したモデル効率を維持しながら分類性能を向上させることができる。
畳み込みニューラルネットワーク,視覚変換器,多層パーセプトロンにまたがる25のDNNアーキテクチャを用いた画像ネット分類ベンチマークにおけるNOAHの有効性を検証する。
例えば、mobilenetv2 (0.5x)|deit-tiny (0.5x)|gmlp-tiny (0.5x) に対する3.14\%|5.3\%|1.9\% top-1精度の改善である。
NOAHはまた、中規模および大規模DNNに適用する場合によく一般化する。
さらに、NOAHは、MS-COCOデータセット上の大規模なResNet101|ViT-Largeに対して3.6\%|1.1\% mAPの改善を示すなど、他の一般的なマルチクラスおよびマルチラベルイメージ分類ベンチマークや、異なるトレーニングレシシシで有効であることを示す。
プロジェクトページ:https://github.com/OSVAI/NOAH。
関連論文リスト
- Graph Neural Networks Need Cluster-Normalize-Activate Modules [19.866482154218374]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの非ユークリッドディープラーニングモデルである。
本稿では,CNA(Cluster-Normalize-Activate)という3つのステップからなるプラグアンドプレイモジュールを提案する。
CNAはノード分類とプロパティ予測タスクにおける最先端の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-05T10:59:20Z) - DCNN: Dual Cross-current Neural Networks Realized Using An Interactive Deep Learning Discriminator for Fine-grained Objects [48.65846477275723]
本研究では、微細な画像分類の精度を向上させるために、新しい二重電流ニューラルネットワーク(DCNN)を提案する。
弱い教師付き学習バックボーンモデルを構築するための新しい特徴として、(a)異種データの抽出、(b)特徴マップの解像度の維持、(c)受容領域の拡大、(d)グローバル表現と局所特徴の融合などがある。
論文 参考訳(メタデータ) (2024-05-07T07:51:28Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Rethinking Nearest Neighbors for Visual Classification [56.00783095670361]
k-NNは、トレーニングセット内のテストイメージとトップk隣人間の距離を集約する遅延学習手法である。
我々は,教師付き手法と自己監督型手法のいずれでも,事前学習した視覚表現を持つk-NNを2つのステップで採用する。
本研究は,幅広い分類タスクに関する広範な実験により,k-NN統合の汎用性と柔軟性を明らかにした。
論文 参考訳(メタデータ) (2021-12-15T20:15:01Z) - Hybrid Graph Neural Networks for Few-Shot Learning [85.93495480949079]
グラフニューラルネットワーク(GNN)は、数発の学習問題に対処するために使用されている。
帰納的設定の下では、既存のGNNベースのメソッドは競争力が少ない。
本稿では2つのGNN(インスタンスGNNとプロトタイプGNN)からなる新しいハイブリッドGNNモデルを提案する。
論文 参考訳(メタデータ) (2021-12-13T10:20:15Z) - From Stars to Subgraphs: Uplifting Any GNN with Local Structure
Awareness [23.279464786779787]
私たちはMPNNをより表現力のあるものにするための一般的なフレームワークを導入します。
私たちのフレームワークは1&2-WLよりも強力で、3WLよりも強力です。
本手法は,いくつかのよく知られたグラフMLタスクに対して,新たな最先端性能を大きなマージンで設定する。
論文 参考訳(メタデータ) (2021-10-07T19:08:08Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Strengthening the Training of Convolutional Neural Networks By Using
Walsh Matrix [0.0]
分類性能を向上させるため,DNNのトレーニングと構造を変更した。
畳み込みニューラルネットワーク(CNN)の最後の層に続く最小距離ネットワーク(MDN)が分類器として使用される。
異なる領域では、ノード数が少ないDivFEを使用することでより高い分類性能が得られたことが観察されている。
論文 参考訳(メタデータ) (2021-03-31T18:06:11Z) - Patch Based Classification of Remote Sensing Data: A Comparison of
2D-CNN, SVM and NN Classifiers [0.0]
パッチベースのSVMとNNの性能と,2D-CNNと完全連結層からなるディープラーニングアルゴリズムの性能を比較した。
両方のデータセットによる結果は、パッチベースのSVMとNNの有効性を示唆している。
論文 参考訳(メタデータ) (2020-06-21T11:07:37Z) - Towards Deeper Graph Neural Networks with Differentiable Group
Normalization [61.20639338417576]
グラフニューラルネットワーク(GNN)は、隣接するノードを集約することでノードの表現を学習する。
オーバースムーシングは、レイヤーの数が増えるにつれてGNNのパフォーマンスが制限される重要な問題のひとつです。
2つのオーバースムースなメトリクスと新しいテクニック、すなわち微分可能群正規化(DGN)を導入する。
論文 参考訳(メタデータ) (2020-06-12T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。