論文の概要: Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time
- arxiv url: http://arxiv.org/abs/2408.13233v2
- Date: Tue, 15 Oct 2024 04:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:54.363234
- Title: Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time
- Title(参考訳): ほぼ線形時間で近似できる多層変圧器
- Authors: Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou,
- Abstract要約: 本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
- 参考スコア(独自算出の注目度): 17.086679273053853
- License:
- Abstract: The computational complexity of the self-attention mechanism in popular transformer architectures poses significant challenges for training and inference, and becomes the bottleneck for long inputs. Is it possible to significantly reduce the quadratic time complexity of computing the gradients in multi-layer transformer models? This paper proves that a novel fast approximation method can calculate the gradients in almost linear time $n^{1+o(1)}$ where $n$ is the input sequence length, while it maintains a polynomially small approximation error $1 / \mathrm{poly}(n)$ across the entire model. Our theory holds for general loss functions and when the multi-layer transformer model contains many practical sub-modules, such as residual connection, casual mask, and multi-head attention. By improving the efficiency of gradient computation, we hope that this work will facilitate more effective training and deployment of long-context language models based on our theoretical results.
- Abstract(参考訳): 一般的なトランスフォーマーアーキテクチャにおける自己注意機構の計算複雑性は、トレーニングと推論に重大な課題をもたらし、長い入力のボトルネックとなる。
多層変圧器モデルにおける勾配計算の2次時間的複雑性を著しく低減することは可能か?
本稿では,新しい高速近似法がほぼ線形時間$n^{1+o(1)}$において,入力シーケンス長が$n$であり,多項式的に小さな近似誤差が1/\mathrm{poly}(n)$であることを示す。
我々の理論は、一般的な損失関数であり、多重層トランスモデルには、残差接続、カジュアルマスク、マルチヘッドアテンションなど、多くの実用的なサブモジュールが含まれている。
勾配計算の効率を向上させることにより、この研究により、我々の理論的結果に基づいて、より効果的な長文言語モデルの訓練と展開が促進されることを期待する。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Tensor Attention Training: Provably Efficient Learning of Higher-order Transformers [29.27113653850964]
テンソルアテンショントレーニングの後方勾配は、ほぼ線形な$n1+o(1)$時間で計算できることを示す。
本結果は,高次変圧器の効率的な訓練の実現可能性を確立し,テンソルアテンションアーキテクチャの実践的応用を促進することができる。
論文 参考訳(メタデータ) (2024-05-26T02:59:13Z) - ReCycle: Fast and Efficient Long Time Series Forecasting with Residual Cyclic Transformers [0.06965384453064827]
ReCycleと呼ばれるResidual Cyclic Transformerは、ハイメソッドの複雑さとリアルな計算リソースのギャップを埋める。
提案手法は,低性能,低消費電力,エッジコンピューティングデバイス上でのトレーニングと推論を両立させることにより,実行時間とエネルギー消費を1桁以上削減する。
論文 参考訳(メタデータ) (2024-05-06T12:48:34Z) - DiJiang: Efficient Large Language Models through Compact Kernelization [30.24187657746638]
本稿では、事前学習したバニラ変換器を、トレーニングコストの少ない線形複雑化モデルに変換するための新しい周波数領域カーネル化手法を提案する。
実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストを大幅に削減し,推論速度を大幅に高速化した。
論文 参考訳(メタデータ) (2024-03-29T02:32:15Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。