論文の概要: Fast Monte-Carlo Approximation of the Attention Mechanism
- arxiv url: http://arxiv.org/abs/2201.12854v1
- Date: Sun, 30 Jan 2022 16:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 05:17:54.494467
- Title: Fast Monte-Carlo Approximation of the Attention Mechanism
- Title(参考訳): 高速モンテカルロによるアテンション機構の近似
- Authors: Hyunjun Kim, JeongGil Ko
- Abstract要約: 本稿では,自己注意機構の計算コストを削減するためのランダム化近似法であるMCA(Monte-Carlo Attention)を紹介する。
MCAは、入力シーケンスにおける各トークンの重要性がアテンションスコアによって異なるという事実を活用している。
MCAは、モデル精度を損なうことなく、GLUEベンチマークにおいて、様々なトランスフォーマーモデルの注意複雑さ(FLOPS)を最大11$times$に削減することを示す。
- 参考スコア(独自算出の注目度): 6.812554384019157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Monte-Carlo Attention (MCA), a randomized approximation method
for reducing the computational cost of self-attention mechanisms in Transformer
architectures. MCA exploits the fact that the importance of each token in an
input sequence varies with respect to their attention scores; thus, some degree
of error can be tolerable when encoding tokens with low attention. Using
approximate matrix multiplication, MCA applies different error bounds to encode
input tokens such that those with low attention scores are computed with
relaxed precision, whereas errors of salient elements are minimized. MCA can
operate in parallel with other attention optimization schemes and does not
require model modification. We study the theoretical error bounds and
demonstrate that MCA reduces attention complexity (in FLOPS) for various
Transformer models by up to 11$\times$ in GLUE benchmarks without compromising
model accuracy.
- Abstract(参考訳): トランスフォーマーアーキテクチャにおける自己注意機構の計算コストを削減するためのランダム化近似法であるMCA(Monte-Carlo Attention)を導入する。
MCAは、入力シーケンスにおける各トークンの重要性が注意点によって異なるという事実を利用しており、低い注意でトークンを符号化する際にある程度のエラーを許容できる。
近似行列乗算を用いて、MCAは入力トークンを符号化するために異なる誤差境界を適用し、低い注意スコアを持つものは緩和精度で計算されるが、有意要素の誤差は最小限である。
MCAは他の注意最適化方式と並行して動作し、モデル修正を必要としない。
理論誤差境界について検討し,様々なトランスフォーマーモデルの注意複雑性(FLOPS)をモデルの精度を損なうことなくGLUEベンチマークで最大11$\times$まで低減することを示した。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - Efficient distributed representations with linear-time attention scores normalization [3.8673630752805437]
本研究では,有界ノルムを持つ埋め込みベクトルに対するアテンションスコア正規化定数の線形時間近似を提案する。
推定公式の精度は、競合するカーネルメソッドを桁違いに上回る。
提案アルゴリズムは高度に解釈可能であり,任意の埋め込み問題に容易に適応できる。
論文 参考訳(メタデータ) (2023-03-30T15:48:26Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Transformer-based Machine Learning for Fast SAT Solvers and Logic
Synthesis [63.53283025435107]
CNFベースのSATとMaxSATは論理合成と検証システムの中心である。
そこで本研究では,Transformerアーキテクチャから派生したワンショットモデルを用いて,MaxSAT問題の解法を提案する。
論文 参考訳(メタデータ) (2021-07-15T04:47:35Z) - On the Error Resistance of Hinge Loss Minimization [30.808062097285706]
我々は、損失最小化アルゴリズムが正しい分類器を確実に学習するデータ上の条件の集合を同定する。
特に、データがわずかに非自明なマージンで線形に分類可能であれば、サロゲート損失最小化は非破壊データに無視できる誤差を持つことを示す。
論文 参考訳(メタデータ) (2020-12-02T06:49:24Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z) - Explicit Mean-Square Error Bounds for Monte-Carlo and Linear Stochastic
Approximation [4.817429789586127]
基礎となるマルコフ連鎖が可逆で幾何学的にエルゴードである場合でも、誤差列に有界なホーフディングを得ることはできない。
平均二乗誤差は、ステップサイズシーケンスの条件の下で、$O(1/n)$の最適率を達成する。
論文 参考訳(メタデータ) (2020-02-07T01:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。