論文の概要: The Inhibitor: ReLU and Addition-Based Attention for Efficient
Transformers
- arxiv url: http://arxiv.org/abs/2310.02041v1
- Date: Tue, 3 Oct 2023 13:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:08:40.435952
- Title: The Inhibitor: ReLU and Addition-Based Attention for Efficient
Transformers
- Title(参考訳): インヒビター:効率的なトランスフォーマーのためのreluと追加に基づく注意
- Authors: Rickard Br\"annvall
- Abstract要約: 我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。
これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。
より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enhance the computational efficiency of quantized Transformers, we replace
the dot-product and Softmax-based attention with an alternative mechanism
involving addition and ReLU activation only. This side-steps the expansion to
double precision often required by matrix multiplication and avoids costly
Softmax evaluations but maintains much of the core functionality of
conventional dot-product attention. It can enable more efficient execution and
support larger quantized Transformer models on resource-constrained hardware or
alternative arithmetic systems like homomorphic encryption. Training
experiments on four common benchmark tasks show test set prediction scores
comparable to those of conventional Transformers with dot-product attention.
Our scaling experiments also suggest significant computational savings, both in
plaintext and under encryption. In particular, we believe that the ReLU and
addition-based attention mechanism introduced in this paper may enable
privacy-preserving AI applications operating under homomorphic encryption by
avoiding the costly multiplication of encrypted variables.
- Abstract(参考訳): 量子化トランスの計算効率を向上させるため,dot-productおよびsoftmaxベースの注意を付加とreluアクティベーションのみを含む代替機構に置き換える。
これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避けるが、従来のドット積注意のコア機能の多くを維持している。
より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
4つの共通ベンチマークタスクのトレーニング実験は、ドット積の注意を持つ従来のトランスフォーマーに匹敵するテストセット予測スコアを示す。
私たちのスケーリング実験では、平文でも暗号化でも、重要な計算節約が示されています。
特に,本論文で導入されたreluおよび追加ベースの注意機構は,暗号化変数のコストのかかる乗算を回避し,準同型暗号化下で動作するプライバシ保存型aiアプリケーションを可能にする可能性がある。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - ReLU and Addition-based Gated RNN [1.484528358552186]
従来のリカレントゲートの乗算とシグモイド関数を加算とReLUアクティベーションで置き換える。
このメカニズムは、シーケンス処理のための長期メモリを維持するために設計されているが、計算コストは削減されている。
論文 参考訳(メタデータ) (2023-08-10T15:18:16Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。