論文の概要: The Devil in Linear Transformer
- arxiv url: http://arxiv.org/abs/2210.10340v1
- Date: Wed, 19 Oct 2022 07:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:59:43.914577
- Title: The Devil in Linear Transformer
- Title(参考訳): リニアトランスにおけるデビル
- Authors: Zhen Qin, XiaoDong Han, Weixuan Sun, Dongxu Li, Lingpeng Kong, Nick
Barnes and Yiran Zhong
- Abstract要約: 線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
- 参考スコア(独自算出の注目度): 42.232886799710215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear transformers aim to reduce the quadratic space-time complexity of
vanilla transformers. However, they usually suffer from degraded performances
on various tasks and corpus. In this paper, we examine existing kernel-based
linear transformers and identify two key issues that lead to such performance
gaps: 1) unbounded gradients in the attention computation adversely impact the
convergence of linear transformer models; 2) attention dilution which trivially
distributes attention scores over long sequences while neglecting neighbouring
structures. To address these issues, we first identify that the scaling of
attention matrices is the devil in unbounded gradients, which turns out
unnecessary in linear attention as we show theoretically and empirically. To
this end, we propose a new linear attention that replaces the scaling operation
with a normalization to stabilize gradients. For the issue of attention
dilution, we leverage a diagonal attention to confine attention to only
neighbouring tokens in early layers. Benefiting from the stable gradients and
improved attention, our new linear transformer model, transNormer, demonstrates
superior performance on text classification and language modeling tasks, as
well as on the challenging Long-Range Arena benchmark, surpassing vanilla
transformer and existing linear variants by a clear margin while being
significantly more space-time efficient. The code is available at
https://github.com/OpenNLPLab/Transnormer .
- Abstract(参考訳): 線形変圧器はバニラ変圧器の二次時空複雑性を減らすことを目的としている。
しかし、それらは通常、様々なタスクやコーパスで劣化したパフォーマンスに苦しむ。
本稿では,既存のカーネルベースの線形変換器について検討し,その性能差につながる2つの問題を明らかにする。
1) 注意計算における非有界勾配は、線形変圧器モデルの収束に悪影響を及ぼす。
2) 隣り合う構造物を無視しながら, 注意点を連続して自明に分配する注意希釈。
これらの問題に対処するために、まず注意行列のスケーリングが非有界勾配のデビルであることを同定し、理論的および経験的に示すように線形注意では不要となる。
そこで本研究では,スケーリング操作を正規化に置き換え,勾配を安定化する新しい線形注意法を提案する。
注意希釈問題では,初期層に隣接するトークンのみに留意するために対角的注意力を利用する。
線形変圧器モデルであるtransNormerは,安定な勾配と注目度に適合し,テキスト分類や言語モデリングタスクや,バニラ変圧器や既存の線形変圧器をはるかに上回りながら,空間時間効率が向上するLong-Range Arenaベンチマークにおいて,優れた性能を示す。
コードはhttps://github.com/OpenNLPLab/Transnormerで公開されている。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Your Transformer is Secretly Linear [7.935853865895353]
連続層間の埋め込み変換を解析し, ほぼ完全な線形関係を明らかにする。
変換器の最も線形なブロックのいくつかを除去あるいは線形に近似することは、損失やモデル性能に大きな影響を与えないことを示す。
より小さなモデルに対する事前学習実験では, 層状リニアリティの低減を目的としたコサイン類似性に基づく正則化を導入する。
論文 参考訳(メタデータ) (2024-05-19T22:44:00Z) - The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax
Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。
線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:31:26Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。