Fugu-MT 論文翻訳(概要): Sparse Attention with Linear Units

論文の概要: Sparse Attention with Linear Units

arxiv url: http://arxiv.org/abs/2104.07012v1
Date: Wed, 14 Apr 2021 17:52:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-15 13:34:46.493973
Title: Sparse Attention with Linear Units
Title（参考訳）: リニアユニットによるスパース注意
Authors: Biao Zhang, Ivan Titov, Rico Sennrich
Abstract要約: 本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
参考スコア（独自算出の注目度）: 60.399814410157425
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, it has been argued that encoder-decoder models can be made more interpretable by replacing the softmax function in the attention with its sparse variants. In this work, we introduce a novel, simple method for achieving sparsity in attention: we replace the softmax activation with a ReLU, and show that sparsity naturally emerges from such a formulation. Training stability is achieved with layer normalization with either a specialized initialization or an additional gating function. Our model, which we call Rectified Linear Attention (ReLA), is easy to implement and more efficient than previously proposed sparse attention mechanisms. We apply ReLA to the Transformer and conduct experiments on five machine translation tasks. ReLA achieves translation performance comparable to several strong baselines, with training and decoding speed similar to that of the vanilla attention. Our analysis shows that ReLA delivers high sparsity rate and head diversity, and the induced cross attention achieves better accuracy with respect to source-target word alignment than recent sparsified softmax-based models. Intriguingly, ReLA heads also learn to attend to nothing (i.e. 'switch off') for some queries, which is not possible with sparsified softmax alternatives.
Abstract（参考訳）: 近年,ソフトマックス関数をスパース変種に置き換えることで,エンコーダ・デコーダモデルをより解釈可能であることが議論されている。本研究では, ソフトマックス活性化をreluに置き換え, スパーシティが自然に発生することを示す, 注意のスパース性を達成するための新しい簡便な方法を提案する。訓練安定性は、特別な初期化または追加のゲーティング関数を持つ層正規化によって達成される。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。 ReLAをTransformerに適用し、5つの機械翻訳タスクの実験を行う。 ReLAは、バニラアテンションと同様のトレーニングとデコード速度で、いくつかの強力なベースラインに匹敵する翻訳性能を達成する。解析の結果,ReLAは高い空間性率と頭部の多様性を実現し,近年の疎化ソフトマックスモデルよりも単語アライメントの精度が向上した。興味深いことに、ReLAヘッドは、何も(つまり)参加することを学ぶ。一部のクエリは、sprsified Softmax代替では不可能である。

関連論文リスト

In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文参考訳（メタデータ） (2025-01-23T07:21:08Z)
Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文参考訳（メタデータ） (2023-07-26T08:25:46Z)
An Iterative Algorithm for Rescaled Hyperbolic Functions Regression [7.578147116161996]
大規模言語モデル(LLM)は、様々な領域にまたがる多数の実環境アプリケーションを持つ。 LLMは自然言語処理(NLP)の分野に革命をもたらす可能性がある
論文参考訳（メタデータ） (2023-05-01T05:16:07Z)
r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文参考訳（メタデータ） (2023-04-11T14:28:29Z)
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。 SiRiは、限られたトレーニングデータでも驚くほど優れている。また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文参考訳（メタデータ） (2022-07-27T07:01:01Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文参考訳（メタデータ） (2022-03-23T19:36:19Z)
SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文参考訳（メタデータ） (2021-11-23T17:06:01Z)
Choose a Transformer: Fourier or Galerkin [0.0]
我々は,データ駆動型演算子学習問題に対して,最新技術であるTransformer in Attention Is All You Needの自己注意を適用した。スケールしたドット積の注意におけるソフトマックス正規化は十分であるが必要ではないことを示し、ペトロフ・ガレルキン射影として線形変項の近似能力を証明した。本稿では,ビルガース方程式,インターフェースダーシー流,および逆インターフェース係数同定問題を含む3つの演算子学習実験について述べる。
論文参考訳（メタデータ） (2021-05-31T14:30:53Z)
Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。 30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2020-06-25T17:13:23Z)
A New Modal Autoencoder for Functionally Independent Feature Extraction [6.690183908967779]
新しいモーダルオートエンコーダ (MAE) は、読み出し重み行列の列をオトゴゴナライズすることによって提案される。結果は、MNIST変異とUSPS分類ベンチマークスイートで検証された。新しいMAEは、オートエンコーダのための非常にシンプルなトレーニング原則を導入し、ディープニューラルネットワークの事前トレーニングを約束できる。
論文参考訳（メタデータ） (2020-06-25T13:25:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。