論文の概要: Sparse Attention with Linear Units
- arxiv url: http://arxiv.org/abs/2104.07012v1
- Date: Wed, 14 Apr 2021 17:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-04-15 13:34:46.493973
- Title: Sparse Attention with Linear Units
- Title(参考訳): リニアユニットによるスパース注意
- Authors: Biao Zhang, Ivan Titov, Rico Sennrich
- Abstract要約: 本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 60.399814410157425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, it has been argued that encoder-decoder models can be made more
interpretable by replacing the softmax function in the attention with its
sparse variants. In this work, we introduce a novel, simple method for
achieving sparsity in attention: we replace the softmax activation with a ReLU,
and show that sparsity naturally emerges from such a formulation. Training
stability is achieved with layer normalization with either a specialized
initialization or an additional gating function. Our model, which we call
Rectified Linear Attention (ReLA), is easy to implement and more efficient than
previously proposed sparse attention mechanisms. We apply ReLA to the
Transformer and conduct experiments on five machine translation tasks. ReLA
achieves translation performance comparable to several strong baselines, with
training and decoding speed similar to that of the vanilla attention. Our
analysis shows that ReLA delivers high sparsity rate and head diversity, and
the induced cross attention achieves better accuracy with respect to
source-target word alignment than recent sparsified softmax-based models.
Intriguingly, ReLA heads also learn to attend to nothing (i.e. 'switch off')
for some queries, which is not possible with sparsified softmax alternatives.
- Abstract(参考訳): 近年,ソフトマックス関数をスパース変種に置き換えることで,エンコーダ・デコーダモデルをより解釈可能であることが議論されている。
本研究では, ソフトマックス活性化をreluに置き換え, スパーシティが自然に発生することを示す, 注意のスパース性を達成するための新しい簡便な方法を提案する。
訓練安定性は、特別な初期化または追加のゲーティング関数を持つ層正規化によって達成される。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
ReLAをTransformerに適用し、5つの機械翻訳タスクの実験を行う。
ReLAは、バニラアテンションと同様のトレーニングとデコード速度で、いくつかの強力なベースラインに匹敵する翻訳性能を達成する。
解析の結果,ReLAは高い空間性率と頭部の多様性を実現し,近年の疎化ソフトマックスモデルよりも単語アライメントの精度が向上した。
興味深いことに、ReLAヘッドは、何も(つまり)参加することを学ぶ。
一部のクエリは、sprsified Softmax代替では不可能である。
関連論文リスト
- Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models [0.0]
大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)を提案する。
DR-RLは、浮動小数点演算(FLOP)を著しく低減しつつ、フルランクアテンションと統計的に等価な下流精度を維持している
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約の深層学習におけるランク低減技術に代えて、原理的に数学的に基礎付けられた代替手段を提供する。
論文 参考訳(メタデータ) (2025-12-17T21:09:19Z) - Local Linear Attention: An Optimal Interpolation of Linear and Softmax Attention For Test-Time Regression [35.16407520369906]
局所線形注意(Local Linear Attention)は、テスト時間回帰のレンズを通して非パラメトリック統計から導出される新しい注意機構である。
ハードウェア効率のよいブロックワイズアルゴリズムであるFlashLLAを導入し、現代のアクセラレータ上でスケーラブルで並列な計算を可能にする。
実験の結果,LLAは非定常性に効果的に適応し,テスト時間トレーニングやコンテキスト内学習において強いベースラインを達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-01T20:42:21Z) - Statistical Advantage of Softmax Attention: Insights from Single-Location Regression [0.0]
大規模言語モデルにおける代替案に対するソフトマックスの優位性について検討する。
ソフトマックスがベイズリスクを達成するのに対し、線形注意は基本的に不足していることを示す。
勾配に基づくアルゴリズムによる最適化の関連について論じる。
論文 参考訳(メタデータ) (2025-09-26T06:21:30Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。
本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。
我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - An Iterative Algorithm for Rescaled Hyperbolic Functions Regression [7.578147116161996]
大規模言語モデル(LLM)は、様々な領域にまたがる多数の実環境アプリケーションを持つ。
LLMは自然言語処理(NLP)の分野に革命をもたらす可能性がある
論文 参考訳(メタデータ) (2023-05-01T05:16:07Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。
直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。
我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文 参考訳(メタデータ) (2022-03-23T19:36:19Z) - SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文 参考訳(メタデータ) (2021-11-23T17:06:01Z) - Choose a Transformer: Fourier or Galerkin [0.0]
我々は,データ駆動型演算子学習問題に対して,最新技術であるTransformer in Attention Is All You Needの自己注意を適用した。
スケールしたドット積の注意におけるソフトマックス正規化は十分であるが必要ではないことを示し、ペトロフ・ガレルキン射影として線形変項の近似能力を証明した。
本稿では,ビルガース方程式,インターフェースダーシー流,および逆インターフェース係数同定問題を含む3つの演算子学習実験について述べる。
論文 参考訳(メタデータ) (2021-05-31T14:30:53Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z) - A New Modal Autoencoder for Functionally Independent Feature Extraction [6.690183908967779]
新しいモーダルオートエンコーダ (MAE) は、読み出し重み行列の列をオトゴゴナライズすることによって提案される。
結果は、MNIST変異とUSPS分類ベンチマークスイートで検証された。
新しいMAEは、オートエンコーダのための非常にシンプルなトレーニング原則を導入し、ディープニューラルネットワークの事前トレーニングを約束できる。
論文 参考訳(メタデータ) (2020-06-25T13:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。