論文の概要: GAttANet: Global attention agreement for convolutional neural networks
- arxiv url: http://arxiv.org/abs/2104.05575v1
- Date: Mon, 12 Apr 2021 15:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:54:02.113009
- Title: GAttANet: Global attention agreement for convolutional neural networks
- Title(参考訳): gattanet:畳み込みニューラルネットワークのためのグローバル注意合意
- Authors: Rufin VanRullen and Andrea Alamia
- Abstract要約: 自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、視覚でも最近効率的であることが証明された。
本稿では,標準畳み込みネットワークの性能を向上できる簡易な注意システムによる実験について報告する。
脳にインスパイアされた様々な畳み込みバックボーンのためのグローバルアテンション契約ネットワークの有用性を実証します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer attention architectures, similar to those developed for natural
language processing, have recently proved efficient also in vision, either in
conjunction with or as a replacement for convolutional layers. Typically,
visual attention is inserted in the network architecture as a (series of)
feedforward self-attention module(s), with mutual key-query agreement as the
main selection and routing operation. However efficient, this strategy is only
vaguely compatible with the way that attention is implemented in biological
brains: as a separate and unified network of attentional selection regions,
receiving inputs from and exerting modulatory influence on the entire hierarchy
of visual regions. Here, we report experiments with a simple such attention
system that can improve the performance of standard convolutional networks,
with relatively few additional parameters. Each spatial position in each layer
of the network produces a key-query vector pair; all queries are then pooled
into a global attention query. On the next iteration, the match between each
key and the global attention query modulates the network's activations --
emphasizing or silencing the locations that agree or disagree (respectively)
with the global attention system. We demonstrate the usefulness of this
brain-inspired Global Attention Agreement network (GAttANet) for various
convolutional backbones (from a simple 5-layer toy model to a standard ResNet50
architecture) and datasets (CIFAR10, CIFAR100, Imagenet-1k). Each time, our
global attention system improves accuracy over the corresponding baseline.
- Abstract(参考訳): 自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、近年、畳み込み層と組み合わせて、あるいは畳み込み層の代替として、視覚においても効率的であることが証明された。
通常、視覚的な注意は(一連の)feedforward self-attention module(s)としてネットワークアーキテクチャに挿入される。
しかしながら、この戦略は、注意選択領域の分離された統一されたネットワークとして、視覚領域の階層全体に対する入力を受け取り、変調的影響を行使する、生物学的脳に注意を向ける方法とあいまいに両立するだけである。
本稿では,標準畳み込みネットワークの性能を比較的少ないパラメータで向上させる単純な注意システムを用いた実験について報告する。
ネットワークの各レイヤ内の各空間位置はキー-クエリベクトルペアを生成し、すべてのクエリはグローバルアテンションクエリにプールされる。
次のイテレーションでは、各キーとグローバルアテンションクエリのマッチングがネットワークのアクティベーションを変調します。
この脳にインスパイアされたグローバルアテンションアグリーメントネットワーク(GAttANet)は,単純な5層トイモデルから標準ResNet50アーキテクチャまで)やデータセット(CIFAR10, CIFAR100, Imagenet-1k)に対して有用であることを示す。
グローバルアテンションシステムは毎回,対応するベースラインの精度を向上させる。
関連論文リスト
- Graph Triple Attention Network: A Decoupled Perspective [8.958483386270638]
グラフトランスフォーマーは、マルチビューカオスとローカルグローバルカオスの2つの主要な課題に直面している。
我々は、GTの高レベルな分離された視点を提案し、それらを3つのコンポーネントと2つの相互作用レベルに分解する。
DeGTAというグラフトリプルアテンションネットワークを設計し、多視点アテンションを別々に計算し、多視点ローカルおよびグローバル情報を適応的に統合する。
論文 参考訳(メタデータ) (2024-08-14T16:29:07Z) - Image Super-resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features [6.274236785783168]
本稿では,局所的な特徴を交互に集約するSwin Transformerモジュールを提案する。
実験の結果,提案したネットワークは,他の最先端の超解像ネットワークよりも優れていた。
論文 参考訳(メタデータ) (2023-12-30T14:11:08Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Convolution-enhanced Evolving Attention Networks [41.684265133316096]
Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformerは最先端のモデルを大幅に上回っている。
これは、アテンションマップのレイヤーワイド進化を明示的にモデル化する最初の作品である。
論文 参考訳(メタデータ) (2022-12-16T08:14:04Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - All the attention you need: Global-local, spatial-channel attention for
image retrieval [11.150896867058902]
大規模インスタンスレベルの画像検索のための表現学習に対処する。
バックボーンネットワークの端に付加されるグローバルローカルアテンションモジュール(GLAM)について述べる。
我々は,特徴テンソルを新たに獲得し,空間プーリングにより画像検索のための強力な埋め込みを学習する。
論文 参考訳(メタデータ) (2021-07-16T16:39:13Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。