論文の概要: Macformer: Transformer with Random Maclaurin Feature Attention
- arxiv url: http://arxiv.org/abs/2408.11656v1
- Date: Wed, 21 Aug 2024 14:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:37:45.665702
- Title: Macformer: Transformer with Random Maclaurin Feature Attention
- Title(参考訳): Macformer:ランダムなマクロリン機能を持つトランスフォーマー
- Authors: Yuhan Guo, Lizhong Ding, Ye Yuan, Guoren Wang,
- Abstract要約: ランダムなマクロリン特徴(RMF)を用いて様々なドット生成カーネルを近似するトランスフォーマーアーキテクチャであるMacformerを提案する。
我々は, RMFA と ppSBN の効率を示すための玩具実験を行い, 長距離アリーナ (LRA) ベンチマークを用いてMacformer の加速と精度を検証した。
- 参考スコア(独自算出の注目度): 27.549432056005443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Random feature attention (RFA) adopts random fourier feature (RFF) methods to approximate the softmax function, resulting in a linear time and space attention mechanism that enables the construction of an efficient Transformer. Inspired by RFA, we propose Macformer, a Transformer architecture that employs random Maclaurin features (RMF) to approximate various dot-product kernels, thereby accelerating attention computations for long sequence. Macformer consists of Random Maclaurin Feature Attention (RMFA) and pre-post Scaling Batch Normalization (ppSBN), the former is an unbiased approximation for dot-product kernelized attention and the later is a two-stage regularization mechanism guaranteeing the error of RMFA. We conducted toy experiments to demonstrate the efficiency of RMFA and ppSBN, and experiments on long range arena (LRA) benchmark to validate the acceleration and accuracy of Macformer with different dot-product kernels. Experiment results of Macformer are consistent with our theoretical analysis.
- Abstract(参考訳): ランダム特徴注意(RFA)は、ソフトマックス関数を近似するためにランダムフーリエ特徴(RFF)法を採用し、効率的な変換器の構築を可能にする線形時間と空間の注意機構をもたらす。
RFAにインスパイアされたMacformerは、ランダムなMaclaurin機能(RMF)を用いて様々なドット生成カーネルを近似し、長い列に対する注意計算を高速化するトランスフォーマーアーキテクチャである。
MacformerはRandom Maclaurin Feature Attention (RMFA)とScaling Batch Normalization (ppSBN)で構成されており、前者はドット生成の核化された注意に対する偏りのない近似であり、後者はRMFAのエラーを保証する2段階の正規化機構である。
我々は,RMFAとpSBNの効率を実証する玩具実験を行い,LRAベンチマークを用いて,異なるドット生成カーネルを用いたMacformerの加速と精度を検証した。
Macformerの実験結果は、我々の理論分析と一致している。
関連論文リスト
- FAVOR#: Sharp Attention Kernel Approximations via New Classes of
Positive Random Features [39.282051468586666]
本稿では,ガウスとソフトマックス・カーネルを近似したパラメータ化,正,非三角形のRFを提案する。
提案手法は, カーネル回帰タスクにおいて, 従来の手法よりも分散低減し, 性能的に優れていることを示す。
また,変換器の自己アテンション近似法であるFAVOR#を提案する。
論文 参考訳(メタデータ) (2023-02-01T22:43:29Z) - Online Probabilistic Model Identification using Adaptive Recursive MCMC [8.465242072268019]
適応再帰的マルコフ連鎖モンテカルロ法(ARMCMC)を提案する。
モデルパラメータの確率密度関数全体を計算しながら、従来のオンライン手法の欠点を解消する。
本研究では,ソフト曲げアクチュエータとハント・クロスリー動的モデルを用いてパラメータ推定を行った。
論文 参考訳(メタデータ) (2022-10-23T02:06:48Z) - Hybrid Random Features [60.116392415715275]
ハイブリッドランダム特徴(HRF)と呼ばれるソフトマックスとガウス核の線形化のための新しいランダム特徴法を提案する。
HRFは、カーネル推定の品質を自動的に適応し、定義された関心領域の最も正確な近似を提供する。
論文 参考訳(メタデータ) (2021-10-08T20:22:59Z) - Sigma-Delta and Distributed Noise-Shaping Quantization Methods for
Random Fourier Features [73.25551965751603]
我々は、量子化 RFF が基礎となるカーネルの高精度な近似を可能にすることを証明した。
量子化 RFF はさらに圧縮され,メモリ使用量と精度のトレードオフに優れることを示す。
本手法は,この文脈におけるアート量子化手法の他の状態と比較し,いくつかの機械学習タスクにおいて,提案手法の性能を実証的に示す。
論文 参考訳(メタデータ) (2021-06-04T17:24:47Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Marginalised Gaussian Processes with Nested Sampling [10.495114898741203]
ガウス過程(GP)モデルは、カーネル関数によって制御される帰納バイアスを持つ関数上の豊富な分布である。
本研究は,Nested Smpling (NS) を用いてカーネル関数のハイパーパラメータを疎外する学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T16:04:35Z) - Augmentation of the Reconstruction Performance of Fuzzy C-Means with an
Optimized Fuzzification Factor Vector [99.19847674810079]
Fuzzy C-Means (FCM) は情報グラニュラーを構成する最も頻繁に使用される手法の1つである。
本稿では, ファジィ化因子のベクトルを導入することにより, FCMに基づく脱顆粒機構を増強する。
合成データセットと公開データセットの両方で実験が完了し、提案手法が汎用データ再構成手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-13T04:17:30Z) - Gaussianization Flows [113.79542218282282]
そこで本研究では,サンプル生成における効率のよい繰り返しと効率のよい逆変換を両立できる新しい型正規化フローモデルを提案する。
この保証された表現性のため、サンプル生成の効率を損なうことなく、マルチモーダルなターゲット分布をキャプチャできる。
論文 参考訳(メタデータ) (2020-03-04T08:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。