Fugu-MT 論文翻訳(概要): Sub-Linear Memory: How to Make Performers SLiM

論文の概要: Sub-Linear Memory: How to Make Performers SLiM

arxiv url: http://arxiv.org/abs/2012.11346v1
Date: Mon, 21 Dec 2020 13:56:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-27 06:27:28.857065
Title: Sub-Linear Memory: How to Make Performers SLiM
Title（参考訳）: Sub-Linear Memory:Performer SLiMの作り方
Authors: Valerii Likhosherstov, Krzysztof Choromanski, Jared Davis, Xingyou Song, Adrian Weller
Abstract要約: vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
参考スコア（独自算出の注目度）: 38.068090269482425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Transformer architecture has revolutionized deep learning on sequential data, becoming ubiquitous in state-of-the-art solutions for a wide variety of applications. Yet vanilla Transformers are notoriously resource-expensive, requiring $O(L^2)$ in serial time and memory as functions of input length $L$. Recent works proposed various linear self-attention mechanisms, scaling only as $O(L)$ for serial computation. We perform a thorough analysis of recent Transformer mechanisms with linear self-attention, Performers, in terms of overall computational complexity. We observe a remarkable computational flexibility: forward and backward propagation can be performed with no approximations using sublinear memory as a function of $L$ (in addition to negligible storage for the input sequence), at a cost of greater time complexity in the parallel setting. In the extreme case, a Performer consumes only $O(1)$ memory during training, and still requires $O(L)$ time. This discovered time-memory tradeoff can be used for training or, due to complete backward-compatibility, for fine-tuning on a low-memory device, e.g. a smartphone or an earlier-generation GPU, thus contributing towards decentralized and democratized deep learning.
Abstract（参考訳）: Transformerアーキテクチャはシーケンシャルなデータに対する深い学習に革命をもたらし、様々なアプリケーションのための最先端のソリューションでユビキタスになった。しかし、バニラトランスフォーマはリソース効率が良く、入力長$l$の関数としてシリアル時間とメモリに$o(l^2)$を必要とする。最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。本研究では, 計算の複雑さの観点から, 最近の変圧器機構を線形自己着型演奏者を用いて徹底的に解析する。計算の柔軟性は顕著である: 並列設定でより時間的複雑さを犠牲にして、サブリニアメモリを$l$の関数として使用することで、前方および後方の伝播を近似することなく、(入力シーケンスの無視可能なストレージに加えて)実行することができる。極端な場合、Performerはトレーニング中にわずか$O(1)$メモリしか消費せず、それでも$O(L)$時間を必要とする。この時間メモリのトレードオフは、トレーニングや完全な後方互換性のため、低メモリデバイスの微調整に使用することができる。スマートフォンや前世代のgpuは、分散化と民主化の深層学習に寄与する。

関連論文リスト

QKV Projections Require a Fraction of Their Memory [7.305065320738301]
本稿では,注意層におけるQ,K,V$プロジェクションのメモリ消費を最大512ドルまで削減するテンソル圧縮手法を提案する。 PAMMはFlashAttentionのような効率的な注意手法で完全に構成可能であり、メモリ効率のLLMトレーニングのための実用的で補完的な方法である。
論文参考訳（メタデータ） (2025-06-03T14:37:17Z)
Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [53.925413758281096]
LrcSSMは$textitnonlinear$recurrentモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。 LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
論文参考訳（メタデータ） (2025-05-27T20:02:59Z)
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文参考訳（メタデータ） (2024-08-23T17:16:43Z)
One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space [11.735802740426294]
注意計算は、$O(n2)$の時間複雑性と$O(n2)$の空間複雑性を同時に行う。ストリーミング方式で1パスのデータのみを読み取る新しいアルゴリズムを導入する。特に,本アルゴリズムは,超長期トークンを用いたメモリ効率の優れた性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:35:00Z)
Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文参考訳（メタデータ） (2022-10-19T17:45:48Z)
Mixability made efficient: Fast online multiclass logistic regression [68.8204255655161]
我々は、混合性は最適な後悔を伴うアルゴリズムを得るための強力なツールであることを示した。結果として得られる手法は、しばしば計算の複雑さに悩まされ、実用性が低下した。
論文参考訳（メタデータ） (2021-10-08T08:22:05Z)
Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。 Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。 librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文参考訳（メタデータ） (2021-03-31T15:09:20Z)
Fast Approximate Multi-output Gaussian Processes [6.6174748514131165]
提案手法のトレーニングには、$N×n$固有関数行列と$n×n$逆数しか必要とせず、$n$は選択された固有値の数である。提案手法は,複数の出力に対して回帰し,任意の順序の回帰器の導関数を推定し,それらの相関関係を学習することができる。
論文参考訳（メタデータ） (2020-08-22T14:34:45Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)
GMAT: Global Memory Augmentation for Transformers [45.584411593847406]
集中型アテンションベースの$textitglobal memory$$$M$$$ll L$でスパーストランスフォーマーブロックを拡張することを提案する。私たちの拡張は、管理可能な$O(Mcdot(L+M))$メモリオーバーヘッドを持ち、以前のスパースソリューションとシームレスに統合できます。
論文参考訳（メタデータ） (2020-06-05T07:50:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。