論文の概要: Shift-and-Balance Attention
- arxiv url: http://arxiv.org/abs/2103.13080v1
- Date: Wed, 24 Mar 2021 10:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:09:19.284765
- Title: Shift-and-Balance Attention
- Title(参考訳): Shift-and-Balanceアテンション
- Authors: Chunjie Luo, Jianfeng Zhan, Tianshu Hao, Lei Wang, Wanling Gao
- Abstract要約: Shift-and-Balance attentionはSqueeze-and-Exciteに比べて精度が大幅に向上する。
Shift-and-Balance attentionは、最先端のDynamic Convolutionと比較して、より良い、あるいは近い精度を実現する。
- 参考スコア(独自算出の注目度): 3.715793945021065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention is an effective mechanism to improve the deep model capability.
Squeeze-and-Excite (SE) introduces a light-weight attention branch to enhance
the network's representational power. The attention branch is gated using the
Sigmoid function and multiplied by the feature map's trunk branch. It is too
sensitive to coordinate and balance the trunk and attention branches'
contributions. To control the attention branch's influence, we propose a new
attention method, called Shift-and-Balance (SB). Different from
Squeeze-and-Excite, the attention branch is regulated by the learned control
factor to control the balance, then added into the feature map's trunk branch.
Experiments show that Shift-and-Balance attention significantly improves the
accuracy compared to Squeeze-and-Excite when applied in more layers, increasing
more size and capacity of a network. Moreover, Shift-and-Balance attention
achieves better or close accuracy compared to the state-of-art Dynamic
Convolution.
- Abstract(参考訳): 注意力は、深いモデル能力を改善する効果的なメカニズムである。
squeeze-and-excite (se) はネットワークの表現力を高めるために軽量な注意ブランチを導入した。
注意ブランチはsgmoid関数を使用してゲートされ、フィーチャーマップのトランクブランチに乗算される。
トランクと注意枝の貢献を調整しバランスをとるには敏感すぎる。
注意ブランチの影響を制御するために,シフト・アンド・バランス(sb)と呼ばれる新しい注意手法を提案する。
Squeeze-and-Exciteとは異なり、アテンションブランチは学習したコントロールファクタによって制御され、バランスを制御し、フィーチャーマップのトランクブランチに追加される。
実験により、シフト・アンド・バランス・アテンションは、より多くの層に適用される場合のスクイーズ・アンド・エクスチクトよりも精度が著しく向上し、ネットワークのサイズとキャパシティが増大することが示された。
さらに、Shift-and-Balanceのアテンションは、最先端のDynamic Convolutionと比較して精度が良いか近い。
関連論文リスト
- FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Agent Attention: On the Integration of Softmax and Linear Attention [70.06472039237354]
本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。
提案するエージェントアテンションは,線形アテンションの一般化形式と等価であることを示す。
特に、エージェントの注意は高解像度のシナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
論文 参考訳(メタデータ) (2023-12-14T16:26:29Z) - Convolution-enhanced Evolving Attention Networks [41.684265133316096]
Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformerは最先端のモデルを大幅に上回っている。
これは、アテンションマップのレイヤーワイド進化を明示的にモデル化する最初の作品である。
論文 参考訳(メタデータ) (2022-12-16T08:14:04Z) - Switchable Self-attention Module [3.8992324495848356]
自己注意モジュールSEMを提案する。
SEMは、アテンションモジュールと代替アテンション演算子の入力情報に基づいて、自動的にアテンション演算子を選択し、統合してアテンションマップを計算することができる。
SEMの有効性は、広く使われているベンチマークデータセットと一般的な自己注意ネットワークに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2022-09-13T01:19:38Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Attention in Attention Network for Image Super-Resolution [18.2279472158217]
静的な注意メカニズムを定量化し、視覚化し、すべての注意モジュールが等しく有益ではないことを示します。
高精度な画像SRのために注目ネットワーク(A$2$N)への注目を提案します。
我々のモデルは最先端の軽量ネットワークと比較して優れたトレードオフ性能を実現することができる。
論文 参考訳(メタデータ) (2021-04-19T17:59:06Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。