論文の概要: SUS backprop: linear backpropagation algorithm for long inputs in transformers
- arxiv url: http://arxiv.org/abs/2505.15080v1
- Date: Wed, 21 May 2025 04:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.858115
- Title: SUS backprop: linear backpropagation algorithm for long inputs in transformers
- Title(参考訳): SUSバックプロップ:変圧器の長い入力に対する線形バックプロパゲーションアルゴリズム
- Authors: Sergey Pankov, Georges Harik,
- Abstract要約: 本稿では,1パラメータ$c$で制御される単純な確率的ルールを提案する。
これにより、注意バックプロパゲーションに必要な計算量が$c/n$削減される。
我々は,典型的な変圧器モデルにおいて,注意勾配流の99%をカットすると,相対勾配分散が約$n sim 2000$で1%程度増加し,$n$で減少することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is straightforward to design an unbiased gradient estimator that stochastically cuts the backpropagation flow through any part of a computational graph. By cutting the parts that have little effect on the computation, one can potentially save a significant amount of back-propagation computation in exchange for a minimal increase in the stochastic gradient variance, in some situations. Such a situation occurs in the attention mechanism of the transformer architecture. For long sequences, attention becomes the limiting factor, as its compute requirements increase quadratically with sequence length $n$. At the same time, most attention weights become very small, as most attention heads tend to connect a given token with only a small fraction of other tokens in the sequence. These weights become promising targets for cutting backpropagation. We propose a simple probabilistic rule controlled by a single parameter $c$ that cuts backpropagation through most attention weights, leaving at most $c$ interactions per token per attention head. This brings a factor of $c/n$ reduction in the compute required for the attention backpropagation, turning it from quadratic $O(n^2)$ to linear complexity $O(nc)$. We have empirically verified that, for a typical transformer model, cutting $99\%$ of the attention gradient flow (i.e. choosing $c \sim 20-30$) results in relative gradient variance increase of only about $1\%$ for $n \sim 2000$, and it decreases with $n$. This approach is amenable to efficient sparse matrix implementation, thus being promising for making the cost of a backward pass negligible relative to the cost of a forward pass when training a transformer model on long sequences.
- Abstract(参考訳): 計算グラフの任意の部分を通してバックプロパゲーションフローを確率的にカットする非バイアス勾配推定器を設計することは容易である。
計算にほとんど影響を与えない部分を切断することで、確率勾配分散の最小化と引き換えに、かなりの量のバックプロパゲーション計算を節約できる可能性がある。
このような状況はトランスアーキテクチャの注意機構に発生する。
長いシーケンスでは、その計算要求が、シーケンスの長さが$n$で2次的に増加するにつれて、注意が制限要因となる。
同時に、ほとんどの注意重みは非常に小さくなり、ほとんどの注意ヘッドは、与えられたトークンを、シーケンス内の他のわずかなトークンで接続する傾向にある。
これらの重みは、バックプロパゲーションを減らすための有望な目標となる。
単一パラメータ$c$で制御される単純な確率的ルールを提案し、ほとんどの注意重みを通してバックプロパゲーションを削減し、注意頭当たりのトークン当たりの相互作用を最大$c$に抑える。
これにより、注意バックプロパゲーションに必要な計算量が$c/n$に削減され、二次的な$O(n^2)$から線形複雑性$O(nc)$に変換される。
典型的な変圧器モデルでは、注意勾配フローの99 %$(すなわち$c \sim 20-30$)をカットすると、相対勾配の分散は、$n \sim 2000$に対してわずか1 %$となり、$n$で減少する。
このアプローチは効率的なスパース行列の実装に適しており、長い列上のトランスモデルをトレーニングする際、前方通過のコストに対して後方通過のコストが無視可能であることを約束する。
関連論文リスト
- Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators [29.063441432499776]
多変量関数に対する任意の順序の微分テンソルの任意の収縮を効率的に行う方法を示す。
物理インフォームドニューラルネットワーク(PINN)に適用すると,1000$times$ Speed-upと1000$times$ Speed-upが提供される。
30$times$1次ADによるランダム化によるメモリ削減。
論文 参考訳(メタデータ) (2024-11-27T09:37:33Z) - Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - Second-order Information Promotes Mini-Batch Robustness in Variance-Reduced Gradients [0.196629787330046]
目的関数の部分的な2次情報を組み込むことで、分散還元勾配法のミニバッチサイズに対するロバスト性を劇的に向上させることができることを示す。
本稿では,この現象をプロトタイプNewton(textttMb-SVRN$)アルゴリズムで示す。
論文 参考訳(メタデータ) (2024-04-23T05:45:52Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。