論文の概要: Attention as Activation
- arxiv url: http://arxiv.org/abs/2007.07729v2
- Date: Sun, 2 Aug 2020 09:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:02:27.168129
- Title: Attention as Activation
- Title(参考訳): 活性化としての注意
- Authors: Yimian Dai and Stefan Oehmcke and Fabian Gieseke and Yiquan Wu and
Kobus Barnard
- Abstract要約: 本稿では,アクティベーション機能とアテンション機構の統一として,アテンショナルアクティベーションユニット(ATAC)と呼ばれる新しいタイプのアクティベーションユニットを提案する。
畳み込みネットワークにおいて、よく知られた整流線形ユニットをATAC単位に置き換えることにより、より優れた性能を持つ完全注意ネットワークを構築することができる。
- 参考スコア(独自算出の注目度): 4.265244011052538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions and attention mechanisms are typically treated as having
different purposes and have evolved differently. However, both concepts can be
formulated as a non-linear gating function. Inspired by their similarity, we
propose a novel type of activation units called attentional activation (ATAC)
units as a unification of activation functions and attention mechanisms. In
particular, we propose a local channel attention module for the simultaneous
non-linear activation and element-wise feature refinement, which locally
aggregates point-wise cross-channel feature contexts. By replacing the
well-known rectified linear units by such ATAC units in convolutional networks,
we can construct fully attentional networks that perform significantly better
with a modest number of additional parameters. We conducted detailed ablation
studies on the ATAC units using several host networks with varying network
depths to empirically verify the effectiveness and efficiency of the units.
Furthermore, we compared the performance of the ATAC units against existing
activation functions as well as other attention mechanisms on the CIFAR-10,
CIFAR-100, and ImageNet datasets. Our experimental results show that networks
constructed with the proposed ATAC units generally yield performance gains over
their competitors given a comparable number of parameters.
- Abstract(参考訳): アクティベーション機能とアテンション機構は通常、異なる目的を持ち、異なる進化を遂げたものとして扱われる。
しかし、どちらの概念も非線形ゲーティング関数として定式化することができる。
その類似性に触発されて,アクティベーション機能とアテンション機構の統合として,アテンションアクティベーションアクティベーションユニット(atac)と呼ばれる新しいタイプのアクティベーションユニットを提案する。
特に,ポイントワイズなクロスチャネル特徴コンテキストを局所的に集約する,非線形活性化と要素ワイズ特徴の洗練を同時に行うローカルチャネルアテンションモジュールを提案する。
畳み込みネットワークにおいて、よく知られた整列線形単位をそのようなatac単位に置き換えることで、より少ないパラメータでかなり優れた性能を発揮する完全注意ネットワークを構築することができる。
ネットワーク深さの異なる複数のホストネットワークを用いて,ATACユニットの詳細なアブレーション実験を行い,その有効性と効率を実証した。
さらに,既存のアクティベーション機能と,CIFAR-10,CIFAR-100,ImageNetデータセットの注意機構を比較した。
実験の結果,提案するatacユニットで構築したネットワークは,同等のパラメータが与えられた場合,競合相手よりも性能が向上することがわかった。
関連論文リスト
- Towards Robust Semantic Segmentation against Patch-based Attack via
Attention Refinement [73.28768435692125]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - Associative Transformer [26.967506484952214]
本稿では,少人数の入力パッチ間の関連性を高めるために,Associative Transformer (AiT)を提案する。
AiTはVision Transformerよりもはるかに少ないパラメータとアテンション層を必要とする。
論文 参考訳(メタデータ) (2023-09-22T13:37:10Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - ASR: Attention-alike Structural Re-parameterization [56.88192537044364]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - FAN-Trans: Online Knowledge Distillation for Facial Action Unit
Detection [45.688712067285536]
オンライン知識蒸留フレームワークを活用し,AU検出のための「FANTrans」手法を提案する。
我々のモデルは、AU毎の特徴を学習し、AU共起をモデル化するための、畳み込みと変圧器ブロックのハイブリッドネットワークで構成されている。
論文 参考訳(メタデータ) (2022-11-11T11:35:33Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Class Semantics-based Attention for Action Detection [10.69685258736244]
アクションローカライゼーションネットワークは、しばしば機能エンコーダサブネットワークとローカライゼーションサブネットワークとして構成される。
本稿では,クラスセマンティックス・ベース・アテンション(CSA, Class Semantics-based Attention)という新しいアテンション・メカニズムを提案する。
我々の注意機構は、アクション検出タスクにおけるシャープ・アンド・エキサイティングのような、事前の自己注意モジュールよりも優れています。
論文 参考訳(メタデータ) (2021-09-06T17:22:46Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。