論文の概要: Translational Equivariance in Kernelizable Attention
- arxiv url: http://arxiv.org/abs/2102.07680v1
- Date: Mon, 15 Feb 2021 17:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:02:04.512244
- Title: Translational Equivariance in Kernelizable Attention
- Title(参考訳): Kernelizable Attentionにおける翻訳等価性
- Authors: Max Horn, Kumar Shridhar, Elrich Groenewald, Philipp F. M. Baumann
- Abstract要約: 本稿では,カーネル可能な注意に基づく効率的なトランスフォーマにおいて,翻訳等価性を実現する方法を示す。
実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
- 参考スコア(独自算出の注目度): 3.236198583140341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer architectures have show remarkable success, they are bound
to the computation of all pairwise interactions of input element and thus
suffer from limited scalability. Recent work has been successful by avoiding
the computation of the complete attention matrix, yet leads to problems down
the line. The absence of an explicit attention matrix makes the inclusion of
inductive biases relying on relative interactions between elements more
challenging. An extremely powerful inductive bias is translational
equivariance, which has been conjectured to be responsible for much of the
success of Convolutional Neural Networks on image recognition tasks. In this
work we show how translational equivariance can be implemented in efficient
Transformers based on kernelizable attention - Performers. Our experiments
highlight that the devised approach significantly improves robustness of
Performers to shifts of input images compared to their naive application. This
represents an important step on the path of replacing Convolutional Neural
Networks with more expressive Transformer architectures and will help to
improve sample efficiency and robustness in this realm.
- Abstract(参考訳): トランスフォーマーアーキテクチャは目覚ましい成功を収めているが、入力要素の全てのペアの相互作用の計算に縛られ、拡張性に制限がある。
最近の研究は、完全な注意行列の計算を避けることで成功したが、問題は解決した。
明示的な注意行列の欠如は、要素間の相対的な相互作用に依存する誘導バイアスの包含をより困難にします。
非常に強力な誘導バイアスは、画像認識タスクにおけるConvolutional Neural Networksの成功の大部分を担っていると推測されている翻訳平衡である。
本稿では,カーネル化可能な注意 - 実行者に基づく効率的なトランスフォーマにおいて,翻訳等価性をどのように実装できるかを示す。
実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
これは畳み込みニューラルネットワークをより表現力のあるトランスフォーマーアーキテクチャに置き換える重要なステップであり、この領域におけるサンプル効率とロバスト性を改善するのに役立つ。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。
トランスにおける大きな埋め込み次元の必要性と役割を示す。
また、注意層によって効率的に解ける自然変種も提示する。
論文 参考訳(メタデータ) (2023-06-05T14:05:04Z) - Empowering Networks With Scale and Rotation Equivariance Using A
Similarity Convolution [16.853711292804476]
翻訳, 回転, スケーリングに関して, 同時同値のCNNを実現する手法を考案する。
提案手法は畳み込みのような動作を定義し,提案したスケーラブルなフーリエ・アーガン表現に基づいて等価性を保証する。
画像分類作業におけるアプローチの有効性を検証し、その頑健さと、スケールされた入力と回転した入力の両方に対する一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-01T08:43:05Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - CETransformer: Casual Effect Estimation via Transformer Based
Representation Learning [17.622007687796756]
データ駆動因果効果推定は、選択バイアスと反事実の欠如という2つの大きな課題に直面している。
これら2つの問題に対処するため、既存のアプローチのほとんどは、バランスの取れた表現を学ぶことで選択バイアスを減らす傾向にある。
本稿では,CETransformerモデルを用いて,変換器を用いた表現学習によるカジュアルエフェクト推定を提案する。
論文 参考訳(メタデータ) (2021-07-19T09:39:57Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。