論文の概要: Edge Attention Module for Object Classification
- arxiv url: http://arxiv.org/abs/2502.03103v1
- Date: Wed, 05 Feb 2025 11:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:19.176430
- Title: Edge Attention Module for Object Classification
- Title(参考訳): オブジェクト分類のためのエッジアテンションモジュール
- Authors: Santanu Roy, Ashvath Suresh, Archit Gupta,
- Abstract要約: 本研究では,物体分類タスクにおいて,新しいエッジアテンションに基づく畳み込みニューラルネットワーク(CNN)'を提案する。
我々は、Max-Minプーリング層と畳み込み層からなるEdge Attention Module (EAM)'を初めて紹介する。
我々は、Caltech-101、Caltech-256、CIFAR-100、Tiny ImageNet-200データセットの標準トレーニング済みCNNモデルにEAMまたは2EAMを実装した。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License:
- Abstract: A novel ``edge attention-based Convolutional Neural Network (CNN)'' is proposed in this research for object classification task. With the advent of advanced computing technology, CNN models have achieved to remarkable success, particularly in computer vision applications. Nevertheless, the efficacy of the conventional CNN is often hindered due to class imbalance and inter-class similarity problems, which are particularly prominent in the computer vision field. In this research, we introduce for the first time an ``Edge Attention Module (EAM)'' consisting of a Max-Min pooling layer, followed by convolutional layers. This Max-Min pooling is entirely a novel pooling technique, specifically designed to capture only the edge information that is crucial for any object classification task. Therefore, by integrating this novel pooling technique into the attention module, the CNN network inherently prioritizes on essential edge features, thereby boosting the accuracy and F1-score of the model significantly. We have implemented our proposed EAM or 2EAMs on several standard pre-trained CNN models for Caltech-101, Caltech-256, CIFAR-100 and Tiny ImageNet-200 datasets. The extensive experiments reveal that our proposed framework (that is, EAM with CNN and 2EAMs with CNN), outperforms all pre-trained CNN models as well as recent trend models ``Pooling-based Vision Transformer (PiT)'', ``Convolutional Block Attention Module (CBAM)'', and ConvNext, by substantial margins. We have achieved the accuracy of 95.5% and 86% by the proposed framework on Caltech-101 and Caltech-256 datasets, respectively. So far, this is the best results on these datasets, to the best of our knowledge.
- Abstract(参考訳): 本稿では,対象分類タスクにおいて,'edge attention-based Convolutional Neural Network'(CNN)を提案する。
先進的なコンピュータ技術の出現により、CNNモデルは特にコンピュータビジョンアプリケーションにおいて顕著な成功を収めた。
しかしながら、従来のCNNの有効性は、特にコンピュータビジョンの分野で顕著なクラス不均衡とクラス間の類似性の問題により、しばしば妨げられる。
本研究では,Max-Minプーリング層と畳み込み層からなる'`Edge Attention Module (EAM)'を初めて紹介する。
このMax-Minプーリングは、あらゆるオブジェクト分類タスクに不可欠なエッジ情報のみをキャプチャするために特別に設計された、全く新しいプーリング技術である。
そのため、この新たなプール技術をアテンションモジュールに統合することにより、CNNネットワークは本質的に本質的なエッジ特徴を優先し、モデルの精度とF1スコアを大幅に向上させる。
我々は、Caltech-101、Caltech-256、CIFAR-100、Tiny ImageNet-200データセットの標準トレーニング済みCNNモデルにEAMまたは2EAMを実装した。
提案したフレームワーク(CNNでEAM、CNNで2EAM)は、最近のトレンドモデルである '‘Pooling-based Vision Transformer (PiT)'', ‘`Convolutional Block Attention Module (CBAM)'', ConvNext などと同様に、事前訓練されたCNNモデルよりもかなり優れています。
我々はそれぞれ、Caltech-101とCaltech-256データセットに関する提案されたフレームワークにより、95.5%と86%の精度を達成した。
これまでのところ、これはこれらのデータセットの最良の結果であり、私たちの知る限りでは最良の結果です。
関連論文リスト
- CNN-JEPA: Self-Supervised Pretraining Convolutional Neural Networks Using Joint Embedding Predictive Architecture [5.0337106694127725]
自己教師付き学習(SSL)は、大規模なニューラルネットワークの事前トレーニングにおいて重要なアプローチとなっている。
本稿では,CNNに組込み予測アーキテクチャを適用可能な新しいSSL方式であるCNN-JEPAを紹介する。
本手法では,マスク入力を処理するためのスパースCNNエンコーダ,奥行き分離可能な畳み込みを用いた完全畳み込み予測器,マスキング戦略の改善を取り入れた。
論文 参考訳(メタデータ) (2024-08-14T12:48:37Z) - Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Lightweight Hybrid CNN-ELM Model for Multi-building and Multi-floor
Classification [6.154022105385209]
本稿では,CNN と ELM の軽量な組み合わせを提案する。
その結果,提案モデルはベンチマークよりも58%高速であり,分類精度はわずかに向上した。
論文 参考訳(メタデータ) (2022-04-21T21:48:01Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - IC Networks: Remodeling the Basic Unit for Convolutional Neural Networks [8.218732270970381]
既存のCNNにIC構造を組み込んで性能を向上することができる。
ICネットワークのトレーニングを高速化するために,新しいトレーニング手法,すなわち弱いロジット蒸留(WLD)を提案する。
ImageNetの実験では、IC構造をResNet-50に統合し、トップ1エラーを22.38%から21.75%に削減した。
論文 参考訳(メタデータ) (2021-02-06T03:15:43Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。