論文の概要: Self-attention Does Not Need $O(n^2)$ Memory
- arxiv url: http://arxiv.org/abs/2112.05682v1
- Date: Fri, 10 Dec 2021 17:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 15:30:57.081610
- Title: Self-attention Does Not Need $O(n^2)$ Memory
- Title(参考訳): 自己注意は$O(n^2)$メモリを必要としない
- Authors: Markus N. Rabe and Charles Staats
- Abstract要約: 我々は,シーケンス長に対して$O(1)$のメモリを必要とする,非常に単純な注意アルゴリズムを提案する。
これは、自己注意には$O(log n)$メモリが必要であるという頻繁に述べられている信念とは対照的である。
シーケンス長16384では、自己アテンションのメモリオーバーヘッドを推論の59倍、微分の32倍に削減する。
- 参考スコア(独自算出の注目度): 6.929312022493406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a very simple algorithm for attention that requires $O(1)$ memory
with respect to sequence length and an extension to self-attention that
requires $O(\log n)$ memory. This is in contrast with the frequently stated
belief that self-attention requires $O(n^2)$ memory. While the time complexity
is still $O(n^2)$, device memory rather than compute capability is often the
limiting factor on modern accelerators. Thus, reducing the memory requirements
of attention allows processing of longer sequences than might otherwise be
feasible. We provide a practical implementation for accelerators that requires
$O(\sqrt{n})$ memory, is numerically stable, and is within a few percent of the
runtime of the standard implementation of attention. We also demonstrate how to
differentiate the function while remaining memory-efficient. For sequence
length 16384, the memory overhead of self-attention is reduced by 59X for
inference and by 32X for differentiation.
- Abstract(参考訳): 我々は、配列長に関して$O(1)$メモリを必要とする非常に単純なアルゴリズムと、$O(\log n)$メモリを必要とする自己注意の拡張を提案する。
これは、自己アテンションが$o(n^2)$メモリを必要とするというしばしば述べられている信念とは対照的である。
時間複雑性は依然として$O(n^2)$であるが、現代のアクセラレータでは計算能力よりもデバイスメモリが制限要因となることが多い。
したがって、注意のメモリ要件の削減は、他の方法よりも長いシーケンスの処理を可能にする。
我々は、$o(\sqrt{n})$メモリを必要とし、数値的に安定であり、標準的注意実装のランタイム数パーセント以内のアクセラレーターの実用的な実装を提供する。
また、メモリ効率を保ちながら関数を区別する方法も示す。
シーケンス長16384では、自己アテンションのメモリオーバーヘッドを推論の59倍、微分の32倍に削減する。
関連論文リスト
- One Pass Streaming Algorithm for Super Long Token Attention
Approximation in Sublinear Space [11.735802740426294]
注意計算は、$O(n2)$の時間複雑性と$O(n2)$の空間複雑性を同時に行う。
ストリーミング方式で1パスのデータのみを読み取る新しいアルゴリズムを導入する。
特に,本アルゴリズムは,超長期トークンを用いたメモリ効率の優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:35:00Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Cumulative Memory Lower Bounds for Randomized and Quantum Computation [1.52292571922932]
累積記憶は時間空間の複雑さの尺度である。
逐次古典計算と量子回路の両方において、累積メモリの複雑さに関する最初の下位境界を証明した。
論文 参考訳(メタデータ) (2023-01-13T17:57:02Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memory Compression with Quantum Random-Access Gates [0.0]
量子ランダムアクセスゲートを備えた量子アルゴリズムに対して、類似した結果を示す。
空間非効率であるがスパースな量子データ構造を構築することはしばしば可能である。
論文 参考訳(メタデータ) (2022-03-10T19:27:53Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Sub-Linear Memory: How to Make Performers SLiM [38.068090269482425]
vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。
最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。
計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
論文 参考訳(メタデータ) (2020-12-21T13:56:04Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。