論文の概要: SMYRF: Efficient Attention using Asymmetric Clustering
- arxiv url: http://arxiv.org/abs/2010.05315v1
- Date: Sun, 11 Oct 2020 18:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:50:34.100214
- Title: SMYRF: Efficient Attention using Asymmetric Clustering
- Title(参考訳): SMYRF:非対称クラスタリングによる効率的な注意
- Authors: Giannis Daras, Nikita Kitaev, Augustus Odena, Alexandros G. Dimakis
- Abstract要約: 本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
- 参考スコア(独自算出の注目度): 103.47647577048782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel type of balanced clustering algorithm to approximate
attention. Attention complexity is reduced from $O(N^2)$ to $O(N \log N)$,
where $N$ is the sequence length. Our algorithm, SMYRF, uses Locality Sensitive
Hashing (LSH) in a novel way by defining new Asymmetric transformations and an
adaptive scheme that produces balanced clusters. The biggest advantage of SMYRF
is that it can be used as a drop-in replacement for dense attention layers
without any retraining. On the contrary, prior fast attention methods impose
constraints (e.g. queries and keys share the same vector representations) and
require re-training from scratch. We apply our method to pre-trained
state-of-the-art Natural Language Processing and Computer Vision models and we
report significant memory and speed benefits. Notably, SMYRF-BERT outperforms
(slightly) BERT on GLUE, while using $50\%$ less memory. We also show that
SMYRF can be used interchangeably with dense attention before and after
training. Finally, we use SMYRF to train GANs with attention in high
resolutions. Using a single TPU, we were able to scale attention to 128x128=16k
and 256x256=65k tokens on BigGAN on CelebA-HQ.
- Abstract(参考訳): 本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
注意の複雑さは$o(n^2)$から$o(n \log n)$に減らされ、ここで$n$はシーケンス長である。
我々のアルゴリズムSMYRFは、新しい非対称変換とバランスの取れたクラスタを生成する適応スキームを定義することによって、新しい方法で局所性感性ハッシュ(LSH)を用いる。
SMYRFの最大の利点は、再トレーニングせずに高密度の注意層をドロップインで置き換えることである。
それとは対照的に、事前の高速注意メソッドは制約(クエリとキーは同じベクトル表現を共有している)を課し、スクラッチから再トレーニングする必要がある。
本手法を事前学習した自然言語処理およびコンピュータビジョンモデルに適用し,メモリと速度の利点を報告した。
特に、SMYRF-BERTは、GLUE上で(わずかに)BERTより優れ、50\%$以下のメモリを使用する。
また, SMYRFは, トレーニング前後の集中的注意を伴って使用することができることを示した。
最後に,SMYRFを用いて高解像度のGANを訓練する。
単一のtpuを使用することで,celeba-hq上の128x128=16kと256x256=65kトークンに注意を向けることができた。
関連論文リスト
- Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - MagicPIG: LSH Sampling for Efficient LLM Generation [41.75038064509643]
以上の結果から,TopKの注意力自体が特定の下流タスクの品質低下に悩まされていることが分かる。
局所感性ハッシュ(LSH)に基づく異種システムMagicPIGを提案する。
MagicPIGは、さまざまなタスクに対して高い精度を維持しながら、注意の負荷を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-21T16:44:51Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Towards Zero Memory Footprint Spiking Neural Network Training [7.4331790419913455]
スパイキングニューラルネットワーク(SNN)は、連続値ではなくスパイクと呼ばれる離散時間イベントを使用して情報を処理する。
本稿では,メモリフットプリントが著しく低いことを特徴とする,革新的なフレームワークを提案する。
我々の設計では、現在のSNNノードと比較してメモリ使用量の削減を$mathbf58.65times$で達成できる。
論文 参考訳(メタデータ) (2023-08-16T19:49:24Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - FsaNet: Frequency Self-attention for Semantic Segmentation [5.495952636982018]
計算量を大幅に削減した新しい自己認識機構を線形速度まで提案する。
アブレーション研究により,低周波自己注意は全周波と比較して非常に近い,あるいは良好な性能が得られることが示された。
周波数自己保持には8,7.29%のsim 90.04%のメモリ、9,6.13%のsim 98.07%のFLOP、97.56%のsim 98.18%のランタイムが必要である。
論文 参考訳(メタデータ) (2022-11-28T17:49:46Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。
提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。
GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文 参考訳(メタデータ) (2021-04-03T20:54:36Z) - You Only Spike Once: Improving Energy-Efficient Neuromorphic Inference
to ANN-Level Accuracy [51.861168222799186]
スパイキングニューラルネットワーク(英: Spiking Neural Networks、SNN)は、神経型ネットワークの一種である。
SNNはスパースであり、重量はごくわずかであり、通常、より電力集約的な乗算および累積演算の代わりに追加操作のみを使用する。
本研究では,TTFS符号化ニューロモルフィックシステムの限界を克服することを目的としている。
論文 参考訳(メタデータ) (2020-06-03T15:55:53Z) - Hashing-based Non-Maximum Suppression for Crowded Object Detection [63.761451382081844]
オブジェクト検出のための非最大ボックスを効率的に抑制するアルゴリズム,HNMS(Hash-based non-maximumpression)を提案する。
2段階検出器では、領域提案ネットワークにおけるNMSをHNMSに置き換え、相当の精度でかなりのスピードアップを観測する。
CARPK、SKU-110K、CrowdHumanデータセットを用いて実験を行い、HNMSの有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-05-22T23:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。