論文の概要: BA-Net: Bridge Attention in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2410.07860v2
- Date: Fri, 11 Oct 2024 03:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:25:50.443707
- Title: BA-Net: Bridge Attention in Deep Neural Networks
- Title(参考訳): BA-Net:ディープニューラルネットワークにおけるブリッジ注意
- Authors: Ronghui Zhang, Runzong Zou, Yue Zhao, Zirui Zhang, Junzhou Chen, Yue Cao, Chuan Hu, Houbing Song,
- Abstract要約: ブリッジアテンションは、異なる畳み込み層間のより効率的な統合と情報フローを促進するように設計されている。
本研究は,適応選択演算子を導入することにより,元のブリッジアテンションモデル(BAv1)を拡張した。
BAv2はImageNet分類タスクで大幅なパフォーマンス改善を実現している。
- 参考スコア(独自算出の注目度): 30.95917417013456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms, particularly channel attention, have become highly influential in numerous computer vision tasks. Despite their effectiveness, many existing methods primarily focus on optimizing performance through complex attention modules applied at individual convolutional layers, often overlooking the synergistic interactions that can occur across multiple layers. In response to this gap, we introduce bridge attention, a novel approach designed to facilitate more effective integration and information flow between different convolutional layers. Our work extends the original bridge attention model (BAv1) by introducing an adaptive selection operator, which reduces information redundancy and optimizes the overall information exchange. This enhancement results in the development of BAv2, which achieves substantial performance improvements in the ImageNet classification task, obtaining Top-1 accuracies of 80.49% and 81.75% when using ResNet50 and ResNet101 as backbone networks, respectively. These results surpass the retrained baselines by 1.61% and 0.77%, respectively. Furthermore, BAv2 outperforms other existing channel attention techniques, such as the classical SENet101, exceeding its retrained performance by 0.52% Additionally, integrating BAv2 into advanced convolutional networks and vision transformers has led to significant gains in performance across a wide range of computer vision tasks, underscoring its broad applicability.
- Abstract(参考訳): 注意機構、特にチャネルアテンションは、多くのコンピュータビジョンタスクに大きな影響を与えている。
その効果にもかかわらず、既存の多くのメソッドは、主に個々の畳み込み層に適用される複雑な注意モジュールを通してパフォーマンスを最適化することに焦点を当てており、しばしば複数の層にまたがる相乗的相互作用を見落としている。
このギャップに対応するために、異なる畳み込み層間のより効率的な統合と情報フローを促進するために設計された新しいアプローチであるブリッジアテンションを導入する。
本研究は,情報冗長性を低減し,全体の情報交換を最適化する適応選択演算子を導入することにより,元のブリッジアテンションモデル(BAv1)を拡張した。
BAv2はImageNet分類タスクにおいて、それぞれResNet50とResNet101をバックボーンネットワークとして使用する場合、80.49%と81.75%のTop-1アキュラシーを得る。
これらの結果は、それぞれ1.61%、0.77%のリトレーニングベースラインを上回っている。
さらに、BAv2は、従来のSENet101のような既存のチャンネルアテンション技術よりも0.52%向上し、BAv2を高度な畳み込みネットワークやビジョントランスフォーマーに統合することで、幅広いコンピュータビジョンタスクのパフォーマンスが大幅に向上し、その幅広い適用性を裏付けている。
関連論文リスト
- ReActXGB: A Hybrid Binary Convolutional Neural Network Architecture for Improved Performance and Computational Efficiency [0.0]
我々はReActXGBというハイブリッドモデルを提案し、ReActNet-Aの完全な畳み込み層をXGBoostに置き換える。
この修正の目的は、より低い計算コストを維持しながら、BCNNと実数値ネットワークのパフォーマンスギャップを狭めることである。
論文 参考訳(メタデータ) (2024-05-11T16:38:50Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Boosting Binary Neural Networks via Dynamic Thresholds Learning [21.835748440099586]
我々はDySignを導入し、情報損失を減らし、BNNの代表能力を高める。
DCNNでは、2つのバックボーンに基づくDyBCNNが、ImageNetデータセット上で71.2%と67.4%のトップ1精度を達成した。
ViTsの場合、DyCCTはImageNetデータセット上で完全にバイナライズされたViTsと56.1%のコンボリューショナル埋め込み層の優位性を示す。
論文 参考訳(メタデータ) (2022-11-04T07:18:21Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Memory Aggregation Networks for Efficient Interactive Video Object
Segmentation [75.35173388837852]
インタラクティブなビデオオブジェクトセグメンテーション(iVOS)は、ユーザインタラクションを備えたビデオにおいて、ターゲットオブジェクトの高品質なセグメンテーションマスクを効率よく回収することを目的としている。
これまでの最先端技術では、ユーザインタラクションと時間的伝搬を行う2つの独立したネットワークでiVOSに取り組みました。
メモリ集約ネットワーク(MA-Net)と呼ばれる統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T07:25:26Z) - ReActNet: Towards Precise Binary Neural Network with Generalized
Activation Functions [76.05981545084738]
本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。
まず,パラメータフリーのショートカットを用いて,コンパクトな実数値ネットワークを修正・バイナライズすることで,ベースラインネットワークを構築する。
提案したReActNetはすべての最先端技術よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。