論文の概要: Scatterbrain: Unifying Sparse and Low-rank Attention Approximation
- arxiv url: http://arxiv.org/abs/2110.15343v1
- Date: Thu, 28 Oct 2021 17:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:07:07.394220
- Title: Scatterbrain: Unifying Sparse and Low-rank Attention Approximation
- Title(参考訳): Scatterbrain: スパースと低ランクアテンション近似の統合
- Authors: Beidi Chen, Tri Dao, Eric Winsor, Zhao Song, Atri Rudra, Christopher
R\'e
- Abstract要約: そこで我々はScatterbrainを提案する。Scatterbrainは(局所性に敏感なハッシュによる)スパースと(カーネル特徴マップによる)低ランクの注意を正確な近似のために統一する新しい方法である。
Scatterbrain は BigGAN 画像生成と 事前訓練した T2T-ViT のドロップイン置換において, ベースラインの2.1倍の誤差を達成できることを実証的に示す。
Scatterbrain for end-to-end training with up 4 points better perplexity and 5 points better average accuracy than sparse or low-rank efficient transformer on language modeling and long-range-arena task。
- 参考スコア(独自算出の注目度): 25.375024028636663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in efficient Transformers have exploited either the sparsity
or low-rank properties of attention matrices to reduce the computational and
memory bottlenecks of modeling long sequences. However, it is still challenging
to balance the trade-off between model quality and efficiency to perform a
one-size-fits-all approximation for different tasks. To better understand this
trade-off, we observe that sparse and low-rank approximations excel in
different regimes, determined by the softmax temperature in attention, and
sparse + low-rank can outperform each individually. Inspired by the classical
robust-PCA algorithm for sparse and low-rank decomposition, we propose
Scatterbrain, a novel way to unify sparse (via locality sensitive hashing) and
low-rank (via kernel feature map) attention for accurate and efficient
approximation. The estimation is unbiased with provably low error. We
empirically show that Scatterbrain can achieve 2.1x lower error than baselines
when serving as a drop-in replacement in BigGAN image generation and
pre-trained T2T-ViT. On a pre-trained T2T Vision transformer, even without
fine-tuning, Scatterbrain can reduce 98% of attention memory at the cost of
only 1% drop in accuracy. We demonstrate Scatterbrain for end-to-end training
with up to 4 points better perplexity and 5 points better average accuracy than
sparse or low-rank efficient transformers on language modeling and
long-range-arena tasks.
- Abstract(参考訳): 効率的なトランスフォーマーの最近の進歩は、長いシーケンスをモデル化する際の計算と記憶のボトルネックを軽減するために、注意行列のスパーシリティまたはローランク特性を利用する。
しかし、モデル品質と効率のトレードオフをバランスさせ、異なるタスクに対して一大の近似を実行することは依然として困難である。
このトレードオフをよりよく理解するために、スパースとローランクの近似が、注意のソフトマックス温度によって決定される異なるレジームにおいて優れていること、スパース+ローランクがそれぞれを上回ることができることを観察する。
古典的ロバスト-pcaアルゴリズムに着想を得て,局所性に敏感なハッシュによる)スパースと(カーネル特徴マップによる)ローランクの注意を(正確かつ効率的な近似のために)統一する新しい手法であるscatterbrainを提案する。
推定値は明らかに低い誤差でバイアスを受けない。
Scatterbrain は BigGAN 画像生成と 事前訓練した T2T-ViT のドロップイン置換において, ベースラインの2.1倍の誤差を達成できることを実証的に示す。
トレーニング済みのT2Tビジョントランスでは、微調整がなくても、Scatterbrainは1%の精度で注意メモリの98%を削減できる。
我々は,言語モデリングや長距離作業において,分散あるいは低ランクの効率的なトランスフォーマーよりも,最大4点高いパープレキシティと5点高い平均精度を持つエンドツーエンドトレーニングのための散乱脳を実演する。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。