論文の概要: Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time
- arxiv url: http://arxiv.org/abs/2408.13233v1
- Date: Fri, 23 Aug 2024 17:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:20:44.764938
- Title: Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time
- Title(参考訳): ほぼ線形時間で近似できる多層変圧器
- Authors: Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou,
- Abstract要約: 本稿では,多層変圧器モデルにおける勾配計算のための新しい高速計算法を提案する。
大規模言語モデルにおける勾配の効率を改善することで、より効果的なトレーニングと長期コンテキスト言語モデルのデプロイが促進されることを願っています。
- 参考スコア(独自算出の注目度): 17.086679273053853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic computational complexity in the self-attention mechanism of popular transformer architectures poses significant challenges for training and inference, particularly in terms of efficiency and memory requirements. Towards addressing these challenges, this paper introduces a novel fast computation method for gradient calculation in multi-layer transformer models. Our approach enables the computation of gradients for the entire multi-layer transformer model in almost linear time $n^{1+o(1)}$, where $n$ is the input sequence length. This breakthrough significantly reduces the computational bottleneck associated with the traditional quadratic time complexity. Our theory holds for any loss function and maintains a bounded approximation error across the entire model. Furthermore, our analysis can hold when the multi-layer transformer model contains many practical sub-modules, such as residual connection, casual mask, and multi-head attention. By improving the efficiency of gradient computation in large language models, we hope that our work will facilitate the more effective training and deployment of long-context language models based on our theoretical results.
- Abstract(参考訳): 一般的なトランスアーキテクチャの自己注意機構における2次計算の複雑さは、特に効率とメモリ要求の観点から、トレーニングと推論に重大な課題をもたらす。
これらの課題に対処するために,多層変圧器モデルにおける勾配計算のための高速計算手法を提案する。
提案手法は, 入力シーケンス長が$n$である場合, ほぼ線形時間$n^{1+o(1)}$で, 多層トランスモデル全体の勾配の計算を可能にする。
このブレークスルーにより、従来の2次時間複雑性に関連する計算ボトルネックが大幅に減少する。
我々の理論は任意の損失関数を保ち、モデル全体にわたって有界近似誤差を維持する。
さらに,多層トランスモデルには,残差接続,カジュアルマスク,マルチヘッドアテンションなど,実用的なサブモジュールが多数含まれている。
大規模言語モデルにおける勾配計算の効率化により、我々の研究は、我々の理論的結果に基づいて、より効果的な長文言語モデルの訓練と展開を促進することを期待する。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Tensor Attention Training: Provably Efficient Learning of Higher-order Transformers [29.27113653850964]
テンソルアテンショントレーニングの後方勾配は、ほぼ線形な$n1+o(1)$時間で計算できることを示す。
本結果は,高次変圧器の効率的な訓練の実現可能性を確立し,テンソルアテンションアーキテクチャの実践的応用を促進することができる。
論文 参考訳(メタデータ) (2024-05-26T02:59:13Z) - ReCycle: Fast and Efficient Long Time Series Forecasting with Residual Cyclic Transformers [0.06965384453064827]
ReCycleと呼ばれるResidual Cyclic Transformerは、ハイメソッドの複雑さとリアルな計算リソースのギャップを埋める。
提案手法は,低性能,低消費電力,エッジコンピューティングデバイス上でのトレーニングと推論を両立させることにより,実行時間とエネルギー消費を1桁以上削減する。
論文 参考訳(メタデータ) (2024-05-06T12:48:34Z) - DiJiang: Efficient Large Language Models through Compact Kernelization [30.24187657746638]
本稿では、事前学習したバニラ変換器を、トレーニングコストの少ない線形複雑化モデルに変換するための新しい周波数領域カーネル化手法を提案する。
実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストを大幅に削減し,推論速度を大幅に高速化した。
論文 参考訳(メタデータ) (2024-03-29T02:32:15Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。