論文の概要: Sparse Attention with Linear Units
- arxiv url: http://arxiv.org/abs/2104.07012v1
- Date: Wed, 14 Apr 2021 17:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:34:46.493973
- Title: Sparse Attention with Linear Units
- Title(参考訳): リニアユニットによるスパース注意
- Authors: Biao Zhang, Ivan Titov, Rico Sennrich
- Abstract要約: 本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 60.399814410157425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, it has been argued that encoder-decoder models can be made more
interpretable by replacing the softmax function in the attention with its
sparse variants. In this work, we introduce a novel, simple method for
achieving sparsity in attention: we replace the softmax activation with a ReLU,
and show that sparsity naturally emerges from such a formulation. Training
stability is achieved with layer normalization with either a specialized
initialization or an additional gating function. Our model, which we call
Rectified Linear Attention (ReLA), is easy to implement and more efficient than
previously proposed sparse attention mechanisms. We apply ReLA to the
Transformer and conduct experiments on five machine translation tasks. ReLA
achieves translation performance comparable to several strong baselines, with
training and decoding speed similar to that of the vanilla attention. Our
analysis shows that ReLA delivers high sparsity rate and head diversity, and
the induced cross attention achieves better accuracy with respect to
source-target word alignment than recent sparsified softmax-based models.
Intriguingly, ReLA heads also learn to attend to nothing (i.e. 'switch off')
for some queries, which is not possible with sparsified softmax alternatives.
- Abstract(参考訳): 近年,ソフトマックス関数をスパース変種に置き換えることで,エンコーダ・デコーダモデルをより解釈可能であることが議論されている。
本研究では, ソフトマックス活性化をreluに置き換え, スパーシティが自然に発生することを示す, 注意のスパース性を達成するための新しい簡便な方法を提案する。
訓練安定性は、特別な初期化または追加のゲーティング関数を持つ層正規化によって達成される。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
ReLAをTransformerに適用し、5つの機械翻訳タスクの実験を行う。
ReLAは、バニラアテンションと同様のトレーニングとデコード速度で、いくつかの強力なベースラインに匹敵する翻訳性能を達成する。
解析の結果,ReLAは高い空間性率と頭部の多様性を実現し,近年の疎化ソフトマックスモデルよりも単語アライメントの精度が向上した。
興味深いことに、ReLAヘッドは、何も(つまり)参加することを学ぶ。
一部のクエリは、sprsified Softmax代替では不可能である。
関連論文リスト
- Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。
直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。
我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文 参考訳(メタデータ) (2022-03-23T19:36:19Z) - SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文 参考訳(メタデータ) (2021-11-23T17:06:01Z) - Choose a Transformer: Fourier or Galerkin [0.0]
我々は,データ駆動型演算子学習問題に対して,最新技術であるTransformer in Attention Is All You Needの自己注意を適用した。
スケールしたドット積の注意におけるソフトマックス正規化は十分であるが必要ではないことを示し、ペトロフ・ガレルキン射影として線形変項の近似能力を証明した。
本稿では,ビルガース方程式,インターフェースダーシー流,および逆インターフェース係数同定問題を含む3つの演算子学習実験について述べる。
論文 参考訳(メタデータ) (2021-05-31T14:30:53Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z) - A New Modal Autoencoder for Functionally Independent Feature Extraction [6.690183908967779]
新しいモーダルオートエンコーダ (MAE) は、読み出し重み行列の列をオトゴゴナライズすることによって提案される。
結果は、MNIST変異とUSPS分類ベンチマークスイートで検証された。
新しいMAEは、オートエンコーダのための非常にシンプルなトレーニング原則を導入し、ディープニューラルネットワークの事前トレーニングを約束できる。
論文 参考訳(メタデータ) (2020-06-25T13:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。