論文の概要: Attention as Activation
- arxiv url: http://arxiv.org/abs/2007.07729v2
- Date: Sun, 2 Aug 2020 09:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:02:27.168129
- Title: Attention as Activation
- Title(参考訳): 活性化としての注意
- Authors: Yimian Dai and Stefan Oehmcke and Fabian Gieseke and Yiquan Wu and
Kobus Barnard
- Abstract要約: 本稿では,アクティベーション機能とアテンション機構の統一として,アテンショナルアクティベーションユニット(ATAC)と呼ばれる新しいタイプのアクティベーションユニットを提案する。
畳み込みネットワークにおいて、よく知られた整流線形ユニットをATAC単位に置き換えることにより、より優れた性能を持つ完全注意ネットワークを構築することができる。
- 参考スコア(独自算出の注目度): 4.265244011052538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions and attention mechanisms are typically treated as having
different purposes and have evolved differently. However, both concepts can be
formulated as a non-linear gating function. Inspired by their similarity, we
propose a novel type of activation units called attentional activation (ATAC)
units as a unification of activation functions and attention mechanisms. In
particular, we propose a local channel attention module for the simultaneous
non-linear activation and element-wise feature refinement, which locally
aggregates point-wise cross-channel feature contexts. By replacing the
well-known rectified linear units by such ATAC units in convolutional networks,
we can construct fully attentional networks that perform significantly better
with a modest number of additional parameters. We conducted detailed ablation
studies on the ATAC units using several host networks with varying network
depths to empirically verify the effectiveness and efficiency of the units.
Furthermore, we compared the performance of the ATAC units against existing
activation functions as well as other attention mechanisms on the CIFAR-10,
CIFAR-100, and ImageNet datasets. Our experimental results show that networks
constructed with the proposed ATAC units generally yield performance gains over
their competitors given a comparable number of parameters.
- Abstract(参考訳): アクティベーション機能とアテンション機構は通常、異なる目的を持ち、異なる進化を遂げたものとして扱われる。
しかし、どちらの概念も非線形ゲーティング関数として定式化することができる。
その類似性に触発されて,アクティベーション機能とアテンション機構の統合として,アテンションアクティベーションアクティベーションユニット(atac)と呼ばれる新しいタイプのアクティベーションユニットを提案する。
特に,ポイントワイズなクロスチャネル特徴コンテキストを局所的に集約する,非線形活性化と要素ワイズ特徴の洗練を同時に行うローカルチャネルアテンションモジュールを提案する。
畳み込みネットワークにおいて、よく知られた整列線形単位をそのようなatac単位に置き換えることで、より少ないパラメータでかなり優れた性能を発揮する完全注意ネットワークを構築することができる。
ネットワーク深さの異なる複数のホストネットワークを用いて,ATACユニットの詳細なアブレーション実験を行い,その有効性と効率を実証した。
さらに,既存のアクティベーション機能と,CIFAR-10,CIFAR-100,ImageNetデータセットの注意機構を比較した。
実験の結果,提案するatacユニットで構築したネットワークは,同等のパラメータが与えられた場合,競合相手よりも性能が向上することがわかった。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - LoFLAT: Local Feature Matching using Focused Linear Attention Transformer [36.53651224633837]
We propose the LoFLAT, a novel Local Feature matching using Focused Linear Attention Transformer。
私たちのLoFLATは、Feature extract Module、Feature Transformer Module、Matching Moduleの3つの主要なモジュールで構成されています。
提案した LoFLAT は効率と精度の両方で LoFTR 法より優れている。
論文 参考訳(メタデータ) (2024-10-30T05:38:07Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - Associative Transformer [26.967506484952214]
本稿では,少人数の入力パッチ間の関連性を高めるために,Associative Transformer (AiT)を提案する。
AiTはVision Transformerよりもはるかに少ないパラメータとアテンション層を必要とする。
論文 参考訳(メタデータ) (2023-09-22T13:37:10Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Class Semantics-based Attention for Action Detection [10.69685258736244]
アクションローカライゼーションネットワークは、しばしば機能エンコーダサブネットワークとローカライゼーションサブネットワークとして構成される。
本稿では,クラスセマンティックス・ベース・アテンション(CSA, Class Semantics-based Attention)という新しいアテンション・メカニズムを提案する。
我々の注意機構は、アクション検出タスクにおけるシャープ・アンド・エキサイティングのような、事前の自己注意モジュールよりも優れています。
論文 参考訳(メタデータ) (2021-09-06T17:22:46Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。