論文の概要: KDEformer: Accelerating Transformers via Kernel Density Estimation
- arxiv url: http://arxiv.org/abs/2302.02451v1
- Date: Sun, 5 Feb 2023 18:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 18:18:25.652989
- Title: KDEformer: Accelerating Transformers via Kernel Density Estimation
- Title(参考訳): KDEformer:カーネル密度推定によるトランスフォーマーの高速化
- Authors: Amir Zandieh, Insu Han, Majid Daliri, Amin Karbasi
- Abstract要約: 本稿では,Dot-product attention mechanismの正確な計算方法を提案する。
提案手法は, 精度, メモリ, 実行時間において, 他の注目度よりも優れていることを示す。
T2T-ViTを用いた画像分類では,精度低下が0.5%以下であるのに対して,18時間以上のスピードアップを示す。
- 参考スコア(独自算出の注目度): 30.860357184928407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dot-product attention mechanism plays a crucial role in modern deep
architectures (e.g., Transformer) for sequence modeling, however, na\"ive exact
computation of this model incurs quadratic time and memory complexities in
sequence length, hindering the training of long-sequence models. Critical
bottlenecks are due to the computation of partition functions in the
denominator of softmax function as well as the multiplication of the softmax
matrix with the matrix of values. Our key observation is that the former can be
reduced to a variant of the kernel density estimation (KDE) problem, and an
efficient KDE solver can be further utilized to accelerate the latter via
subsampling-based fast matrix products. Our proposed KDEformer can approximate
the attention in sub-quadratic time with provable spectral norm bounds, while
all prior results merely provide entry-wise error bounds. Empirically, we
verify that KDEformer outperforms other attention approximations in terms of
accuracy, memory, and runtime on various pre-trained models. On BigGAN image
generation, we achieve better generative scores than the exact computation with
over $4\times$ speedup. For ImageNet classification with T2T-ViT, KDEformer
shows over $18\times$ speedup while the accuracy drop is less than $0.5\%$.
- Abstract(参考訳): ドット生成注意機構は、シーケンスモデリングのための現代のディープアーキテクチャ(例えばトランスフォーマー)において重要な役割を担っているが、このモデルのna\"ive exact computationは、シーケンス長の二次時間とメモリの複雑さを伴い、長いシーケンスモデルのトレーニングを妨げる。
臨界ボトルネックは、ソフトマックス関数の分母における分割関数の計算と、値の行列とのソフトマックス行列の乗算によるものである。
我々は,前者をカーネル密度推定問題(kde)の変種に還元し,より効率的なkdeソルバを用いて,サブサンプリングベースの高速行列生成により後者を高速化できることを示す。
提案したKDEformerは、スペクトルノルム境界の証明が可能なサブ四進時間で注意を近似することができる。
実験により、KDEformerは、様々な事前学習モデルにおいて、精度、メモリ、ランタイムの点で、他の注目度よりも優れていることを確認した。
BigGAN画像生成では,4\times$ Speedupによる正確な計算よりも優れた生成スコアが得られる。
T2T-ViTを使ったImageNet分類では、KDEformerは18\times$ Speedup、精度低下は0.5\%$以下である。
関連論文リスト
- Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - PolySketchFormer: Fast Transformers via Sketching Polynomial Kernels [23.99075223506133]
モデル品質を犠牲にすることなくソフトマックスを効果的に置き換えることができることを示す。
本稿では,因果マスキングを効率的に適用するためのブロックベースアルゴリズムを提案する。
PolySketchFormerAttentionは、長いコンテキストを扱える言語モデルを訓練することで実証的に検証する。
論文 参考訳(メタデータ) (2023-10-02T21:39:04Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Fast Private Kernel Density Estimation via Locality Sensitive
Quantization [10.227538355037554]
差分プライベートカーネル密度推定(DP-KDE)の効率的なメカニズムについて検討する。
カーネルを$d$の時間線形でプライベートに近似する方法を示し、高次元データに対して実現可能である。
論文 参考訳(メタデータ) (2023-07-04T18:48:04Z) - KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization [69.47358238222586]
第2の順序付けにより、パラメータのステップサイズと方向を変更でき、損失曲率に適応できる。
最近、シャンプーはこれらの要求を減らすためにクローネッカーファクター付きプレコンディショナーを導入した。
不条件行列の逆行列根を取る。
これは64ビットの精度が必要で、ハードウェアの制約が強い。
論文 参考訳(メタデータ) (2023-05-30T21:15:45Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - CROM: Continuous Reduced-Order Modeling of PDEs Using Implicit Neural
Representations [5.551136447769071]
高忠実度偏微分方程式ソルバの過剰実行は、時間クリティカルな応用には適さない。
我々は低次モデリング(ROM)を用いたPDEソルバの高速化を提案する。
我々のアプローチは、その離散化ではなく、連続ベクトル場自体の滑らかで低次元多様体を構築する。
論文 参考訳(メタデータ) (2022-06-06T13:27:21Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。