論文の概要: Translational Equivariance in Kernelizable Attention
- arxiv url: http://arxiv.org/abs/2102.07680v1
- Date: Mon, 15 Feb 2021 17:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:02:04.512244
- Title: Translational Equivariance in Kernelizable Attention
- Title(参考訳): Kernelizable Attentionにおける翻訳等価性
- Authors: Max Horn, Kumar Shridhar, Elrich Groenewald, Philipp F. M. Baumann
- Abstract要約: 本稿では,カーネル可能な注意に基づく効率的なトランスフォーマにおいて,翻訳等価性を実現する方法を示す。
実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
- 参考スコア(独自算出の注目度): 3.236198583140341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer architectures have show remarkable success, they are bound
to the computation of all pairwise interactions of input element and thus
suffer from limited scalability. Recent work has been successful by avoiding
the computation of the complete attention matrix, yet leads to problems down
the line. The absence of an explicit attention matrix makes the inclusion of
inductive biases relying on relative interactions between elements more
challenging. An extremely powerful inductive bias is translational
equivariance, which has been conjectured to be responsible for much of the
success of Convolutional Neural Networks on image recognition tasks. In this
work we show how translational equivariance can be implemented in efficient
Transformers based on kernelizable attention - Performers. Our experiments
highlight that the devised approach significantly improves robustness of
Performers to shifts of input images compared to their naive application. This
represents an important step on the path of replacing Convolutional Neural
Networks with more expressive Transformer architectures and will help to
improve sample efficiency and robustness in this realm.
- Abstract(参考訳): トランスフォーマーアーキテクチャは目覚ましい成功を収めているが、入力要素の全てのペアの相互作用の計算に縛られ、拡張性に制限がある。
最近の研究は、完全な注意行列の計算を避けることで成功したが、問題は解決した。
明示的な注意行列の欠如は、要素間の相対的な相互作用に依存する誘導バイアスの包含をより困難にします。
非常に強力な誘導バイアスは、画像認識タスクにおけるConvolutional Neural Networksの成功の大部分を担っていると推測されている翻訳平衡である。
本稿では,カーネル化可能な注意 - 実行者に基づく効率的なトランスフォーマにおいて,翻訳等価性をどのように実装できるかを示す。
実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
これは畳み込みニューラルネットワークをより表現力のあるトランスフォーマーアーキテクチャに置き換える重要なステップであり、この領域におけるサンプル効率とロバスト性を改善するのに役立つ。
関連論文リスト
- Empowering Networks With Scale and Rotation Equivariance Using A
Similarity Convolution [16.853711292804476]
翻訳, 回転, スケーリングに関して, 同時同値のCNNを実現する手法を考案する。
提案手法は畳み込みのような動作を定義し,提案したスケーラブルなフーリエ・アーガン表現に基づいて等価性を保証する。
画像分類作業におけるアプローチの有効性を検証し、その頑健さと、スケールされた入力と回転した入力の両方に対する一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-01T08:43:05Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Exploring Transferable and Robust Adversarial Perturbation Generation
from the Perspective of Network Hierarchy [52.153866313879924]
敵の例の移動可能性と堅牢性は、ブラックボックスの敵攻撃の実用的かつ重要な2つの性質である。
伝送可能で頑健な逆生成法(TRAP)を提案する。
我々のTRAPは、ある種の干渉に対して印象的な伝達性と高い堅牢性を実現する。
論文 参考訳(メタデータ) (2021-08-16T11:52:41Z) - CETransformer: Casual Effect Estimation via Transformer Based
Representation Learning [17.622007687796756]
データ駆動因果効果推定は、選択バイアスと反事実の欠如という2つの大きな課題に直面している。
これら2つの問題に対処するため、既存のアプローチのほとんどは、バランスの取れた表現を学ぶことで選択バイアスを減らす傾向にある。
本稿では,CETransformerモデルを用いて,変換器を用いた表現学習によるカジュアルエフェクト推定を提案する。
論文 参考訳(メタデータ) (2021-07-19T09:39:57Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。