論文の概要: Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time
- arxiv url: http://arxiv.org/abs/2408.13233v1
- Date: Fri, 23 Aug 2024 17:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:20:44.764938
- Title: Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time
- Title(参考訳): ほぼ線形時間で近似できる多層変圧器
- Authors: Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou,
- Abstract要約: 本稿では,多層変圧器モデルにおける勾配計算のための新しい高速計算法を提案する。
大規模言語モデルにおける勾配の効率を改善することで、より効果的なトレーニングと長期コンテキスト言語モデルのデプロイが促進されることを願っています。
- 参考スコア(独自算出の注目度): 17.086679273053853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic computational complexity in the self-attention mechanism of popular transformer architectures poses significant challenges for training and inference, particularly in terms of efficiency and memory requirements. Towards addressing these challenges, this paper introduces a novel fast computation method for gradient calculation in multi-layer transformer models. Our approach enables the computation of gradients for the entire multi-layer transformer model in almost linear time $n^{1+o(1)}$, where $n$ is the input sequence length. This breakthrough significantly reduces the computational bottleneck associated with the traditional quadratic time complexity. Our theory holds for any loss function and maintains a bounded approximation error across the entire model. Furthermore, our analysis can hold when the multi-layer transformer model contains many practical sub-modules, such as residual connection, casual mask, and multi-head attention. By improving the efficiency of gradient computation in large language models, we hope that our work will facilitate the more effective training and deployment of long-context language models based on our theoretical results.
- Abstract(参考訳): 一般的なトランスアーキテクチャの自己注意機構における2次計算の複雑さは、特に効率とメモリ要求の観点から、トレーニングと推論に重大な課題をもたらす。
これらの課題に対処するために,多層変圧器モデルにおける勾配計算のための高速計算手法を提案する。
提案手法は, 入力シーケンス長が$n$である場合, ほぼ線形時間$n^{1+o(1)}$で, 多層トランスモデル全体の勾配の計算を可能にする。
このブレークスルーにより、従来の2次時間複雑性に関連する計算ボトルネックが大幅に減少する。
我々の理論は任意の損失関数を保ち、モデル全体にわたって有界近似誤差を維持する。
さらに,多層トランスモデルには,残差接続,カジュアルマスク,マルチヘッドアテンションなど,実用的なサブモジュールが多数含まれている。
大規模言語モデルにおける勾配計算の効率化により、我々の研究は、我々の理論的結果に基づいて、より効果的な長文言語モデルの訓練と展開を促進することを期待する。
関連論文リスト
- Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Tensor Attention Training: Provably Efficient Learning of Higher-order Transformers [18.331374727331077]
テンソルアテンションの時間的複雑さは、変圧器におけるその利用にとって重要な障害である。
注意訓練の後方勾配をほぼ線形時間で計算できることを実証する。
論文 参考訳(メタデータ) (2024-05-26T02:59:13Z) - Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences [1.5484595752241124]
我々は、長さ$n$のシーケンスに対する注意の時間とメモリの複雑さを低減するために、分割・参照戦略を利用する新しい注意機構であるFast Multipole Attentionを提案する。
階層的なアプローチは、クエリ、キー、値を$mathcalO(log n)$の解像度レベルにグループ化する。
我々は,高速多極変換器がメモリサイズや精度の点で,他の効率的な変換器よりもはるかに優れていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-10-18T13:40:41Z) - MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - A Solution for Large Scale Nonlinear Regression with High Rank and
Degree at Constant Memory Complexity via Latent Tensor Reconstruction [0.0]
本稿では,高非線形多変量関数を例から学習する新しい手法を提案する。
この手法は、連続函数をバイスで近似できるという性質を生かし、テンソルで表現できる。
モデルを学習するために,線形時間で実装可能な効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T14:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。