論文の概要: The Devil in Linear Transformer
- arxiv url: http://arxiv.org/abs/2210.10340v1
- Date: Wed, 19 Oct 2022 07:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:59:43.914577
- Title: The Devil in Linear Transformer
- Title(参考訳): リニアトランスにおけるデビル
- Authors: Zhen Qin, XiaoDong Han, Weixuan Sun, Dongxu Li, Lingpeng Kong, Nick
Barnes and Yiran Zhong
- Abstract要約: 線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
- 参考スコア(独自算出の注目度): 42.232886799710215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear transformers aim to reduce the quadratic space-time complexity of
vanilla transformers. However, they usually suffer from degraded performances
on various tasks and corpus. In this paper, we examine existing kernel-based
linear transformers and identify two key issues that lead to such performance
gaps: 1) unbounded gradients in the attention computation adversely impact the
convergence of linear transformer models; 2) attention dilution which trivially
distributes attention scores over long sequences while neglecting neighbouring
structures. To address these issues, we first identify that the scaling of
attention matrices is the devil in unbounded gradients, which turns out
unnecessary in linear attention as we show theoretically and empirically. To
this end, we propose a new linear attention that replaces the scaling operation
with a normalization to stabilize gradients. For the issue of attention
dilution, we leverage a diagonal attention to confine attention to only
neighbouring tokens in early layers. Benefiting from the stable gradients and
improved attention, our new linear transformer model, transNormer, demonstrates
superior performance on text classification and language modeling tasks, as
well as on the challenging Long-Range Arena benchmark, surpassing vanilla
transformer and existing linear variants by a clear margin while being
significantly more space-time efficient. The code is available at
https://github.com/OpenNLPLab/Transnormer .
- Abstract(参考訳): 線形変圧器はバニラ変圧器の二次時空複雑性を減らすことを目的としている。
しかし、それらは通常、様々なタスクやコーパスで劣化したパフォーマンスに苦しむ。
本稿では,既存のカーネルベースの線形変換器について検討し,その性能差につながる2つの問題を明らかにする。
1) 注意計算における非有界勾配は、線形変圧器モデルの収束に悪影響を及ぼす。
2) 隣り合う構造物を無視しながら, 注意点を連続して自明に分配する注意希釈。
これらの問題に対処するために、まず注意行列のスケーリングが非有界勾配のデビルであることを同定し、理論的および経験的に示すように線形注意では不要となる。
そこで本研究では,スケーリング操作を正規化に置き換え,勾配を安定化する新しい線形注意法を提案する。
注意希釈問題では,初期層に隣接するトークンのみに留意するために対角的注意力を利用する。
線形変圧器モデルであるtransNormerは,安定な勾配と注目度に適合し,テキスト分類や言語モデリングタスクや,バニラ変圧器や既存の線形変圧器をはるかに上回りながら,空間時間効率が向上するLong-Range Arenaベンチマークにおいて,優れた性能を示す。
コードはhttps://github.com/OpenNLPLab/Transnormerで公開されている。
関連論文リスト
- Latent Attention for Linear Time Transformers [8.640180203900583]
双方向タスクと一方向タスクの両方に"ラッテトランスフォーマー"モデルを実装できる。
双方向タスクと一方向タスクの両方に"ラッテトランスフォーマー"モデルを実装できる。
論文 参考訳(メタデータ) (2024-02-27T13:54:48Z) - Linear Transformers are Versatile In-Context Learners [21.444440482020994]
任意の線形変圧器が暗黙の線形モデルを維持していることを証明し、事前条件付き勾配勾配の変種として解釈できる。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax
Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。
線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:31:26Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [64.28699996850845]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。