Fugu-MT 論文翻訳(概要): The Devil in Linear Transformer

論文の概要: The Devil in Linear Transformer

arxiv url: http://arxiv.org/abs/2210.10340v1
Date: Wed, 19 Oct 2022 07:15:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 12:59:43.914577
Title: The Devil in Linear Transformer
Title（参考訳）: リニアトランスにおけるデビル
Authors: Zhen Qin, XiaoDong Han, Weixuan Sun, Dongxu Li, Lingpeng Kong, Nick Barnes and Yiran Zhong
Abstract要約: 線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
参考スコア（独自算出の注目度）: 42.232886799710215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linear transformers aim to reduce the quadratic space-time complexity of vanilla transformers. However, they usually suffer from degraded performances on various tasks and corpus. In this paper, we examine existing kernel-based linear transformers and identify two key issues that lead to such performance gaps: 1) unbounded gradients in the attention computation adversely impact the convergence of linear transformer models; 2) attention dilution which trivially distributes attention scores over long sequences while neglecting neighbouring structures. To address these issues, we first identify that the scaling of attention matrices is the devil in unbounded gradients, which turns out unnecessary in linear attention as we show theoretically and empirically. To this end, we propose a new linear attention that replaces the scaling operation with a normalization to stabilize gradients. For the issue of attention dilution, we leverage a diagonal attention to confine attention to only neighbouring tokens in early layers. Benefiting from the stable gradients and improved attention, our new linear transformer model, transNormer, demonstrates superior performance on text classification and language modeling tasks, as well as on the challenging Long-Range Arena benchmark, surpassing vanilla transformer and existing linear variants by a clear margin while being significantly more space-time efficient. The code is available at https://github.com/OpenNLPLab/Transnormer .
Abstract（参考訳）: 線形変圧器はバニラ変圧器の二次時空複雑性を減らすことを目的としている。しかし、それらは通常、様々なタスクやコーパスで劣化したパフォーマンスに苦しむ。本稿では,既存のカーネルベースの線形変換器について検討し,その性能差につながる2つの問題を明らかにする。 1) 注意計算における非有界勾配は、線形変圧器モデルの収束に悪影響を及ぼす。 2) 隣り合う構造物を無視しながら, 注意点を連続して自明に分配する注意希釈。これらの問題に対処するために、まず注意行列のスケーリングが非有界勾配のデビルであることを同定し、理論的および経験的に示すように線形注意では不要となる。そこで本研究では,スケーリング操作を正規化に置き換え,勾配を安定化する新しい線形注意法を提案する。注意希釈問題では,初期層に隣接するトークンのみに留意するために対角的注意力を利用する。線形変圧器モデルであるtransNormerは,安定な勾配と注目度に適合し,テキスト分類や言語モデリングタスクや,バニラ変圧器や既存の線形変圧器をはるかに上回りながら,空間時間効率が向上するLong-Range Arenaベンチマークにおいて,優れた性能を示す。コードはhttps://github.com/OpenNLPLab/Transnormerで公開されている。

関連論文リスト

Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文参考訳（メタデータ） (2024-12-09T15:44:22Z)
Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文参考訳（メタデータ） (2024-11-12T08:30:59Z)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-06-10T17:24:42Z)
Your Transformer is Secretly Linear [7.935853865895353]
連続層間の埋め込み変換を解析し, ほぼ完全な線形関係を明らかにする。変換器の最も線形なブロックのいくつかを除去あるいは線形に近似することは、損失やモデル性能に大きな影響を与えないことを示す。より小さなモデルに対する事前学習実験では, 層状リニアリティの低減を目的としたコサイン類似性に基づく正則化を導入する。
論文参考訳（メタデータ） (2024-05-19T22:44:00Z)
The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文参考訳（メタデータ） (2024-02-06T19:31:26Z)
Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文参考訳（メタデータ） (2023-12-11T18:51:59Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文参考訳（メタデータ） (2022-06-21T17:33:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。