論文の概要: On the Integration of Self-Attention and Convolution
- arxiv url: http://arxiv.org/abs/2111.14556v1
- Date: Mon, 29 Nov 2021 14:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:39:10.693944
- Title: On the Integration of Self-Attention and Convolution
- Title(参考訳): 自己意識と畳み込みの統合について
- Authors: Xuran Pan, Chunjiang Ge, Rui Lu, Shiji Song, Guanfu Chen, Zeyi Huang,
Gao Huang
- Abstract要約: 畳み込みと自己意識は表現学習の強力なテクニックである。
本稿では,両者の間には強い基礎的関係が存在することを示す。
これら2つのパラダイムの計算の大部分は、実際には同じ操作で行われていることを示す。
- 参考スコア(独自算出の注目度): 33.899471118470416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution and self-attention are two powerful techniques for representation
learning, and they are usually considered as two peer approaches that are
distinct from each other. In this paper, we show that there exists a strong
underlying relation between them, in the sense that the bulk of computations of
these two paradigms are in fact done with the same operation. Specifically, we
first show that a traditional convolution with kernel size k x k can be
decomposed into k^2 individual 1x1 convolutions, followed by shift and
summation operations. Then, we interpret the projections of queries, keys, and
values in self-attention module as multiple 1x1 convolutions, followed by the
computation of attention weights and aggregation of the values. Therefore, the
first stage of both two modules comprises the similar operation. More
importantly, the first stage contributes a dominant computation complexity
(square of the channel size) comparing to the second stage. This observation
naturally leads to an elegant integration of these two seemingly distinct
paradigms, i.e., a mixed model that enjoys the benefit of both self-Attention
and Convolution (ACmix), while having minimum computational overhead compared
to the pure convolution or self-attention counterpart. Extensive experiments
show that our model achieves consistently improved results over competitive
baselines on image recognition and downstream tasks. Code and pre-trained
models will be released at https://github.com/Panxuran/ACmix and
https://gitee.com/mindspore/models.
- Abstract(参考訳): 畳み込みと自己意識は表現学習の2つの強力な手法であり、通常は互いに異なる2つのピアアプローチと見なされる。
本稿では,これらの2つのパラダイムの計算の大部分が実際に同じ操作で行われているという意味で,両者の間に強い基礎的関係があることを述べる。
具体的には、カーネルサイズ k x k の伝統的な畳み込みを k^2 個の 1x1 畳み込みに分解し、次にシフト演算と和算演算を示す。
次に,クエリ,キー,値のプロジェクションを複数の1x1畳み込みとして解釈し,次に注目重みの計算と値の集約を行う。
したがって、2つのモジュールの第一段階は同様の操作を含む。
さらに重要なことに、第1段階は第2段階と比較して計算の複雑さ(チャネルの大きさの2乗)に大きく貢献する。
この観察は自然にこれら2つの際立ったパラダイムのエレガントな統合につながります。すなわち、自己意図と畳み込み(ACmix)の両方の利点を享受する混合モデルであり、純粋な畳み込みや自己意図のどちらよりも計算オーバーヘッドが最小であるのです。
大規模な実験により,画像認識と下流タスクの競争ベースラインよりも連続的に改善された結果が得られた。
コードと事前トレーニングされたモデルはhttps://github.com/panxuran/acmixとhttps://gitee.com/mindspore/modelsでリリースされる。
関連論文リスト
- Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Impact of PolSAR pre-processing and balancing methods on complex-valued
neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。
6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。
本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-10-28T12:49:43Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Doubly Deformable Aggregation of Covariance Matrices for Few-shot
Segmentation [25.387090319723715]
注釈付きサンプルの少ないセマンティックセグメンテーションモデルを訓練することは、実世界の様々な応用に大きな可能性を持っている。
数ショットのセグメンテーションタスクでは、サポートとクエリサンプル間のセマンティック対応を正確に測定する方法が主な課題である。
本稿では,学習可能な共分散行列を変形可能な4次元変換器で集約し,セグメント化マップを効果的に予測する。
論文 参考訳(メタデータ) (2022-07-30T20:41:38Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - MixSiam: A Mixture-based Approach to Self-supervised Representation
Learning [33.52892899982186]
近年,ラベルのないデータから視覚表現を学習する過程が顕著に進展している。
従来のシアムネットワークに対する混合型アプローチであるMixSiamを提案する。
論文 参考訳(メタデータ) (2021-11-04T08:12:47Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - GATCluster: Self-Supervised Gaussian-Attention Network for Image
Clustering [9.722607434532883]
画像クラスタリングのための自己教師型クラスタリングネットワーク(GATCluster)を提案する。
まず中間機能を抽出し、次に従来のクラスタリングを実行する代わりに、GATClusterセマンティッククラスタラベルを後処理なしで実行します。
大規模画像のクラスタリングにメモリ効率のよい2段階学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-27T00:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。