論文の概要: FLuRKA: Fast fused Low-Rank & Kernel Attention
- arxiv url: http://arxiv.org/abs/2306.15799v1
- Date: Tue, 27 Jun 2023 20:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:35:25.091313
- Title: FLuRKA: Fast fused Low-Rank & Kernel Attention
- Title(参考訳): flurka: 高速に融合した低ランクとカーネルの注意
- Authors: Ahan Gupta, Yueming Yuan, Yanqi Zhou and Charith Mendis
- Abstract要約: FLuRKA (Fast Low-Rank and Kernel Attention)
FLuRKAのランタイム性能と品質を理論的・実験的に評価する。
低ランク法とカーネル法でそれぞれ3.3倍と1.7倍という経験的なスピードアップを経験するFLuRKAの3つの変種をインスタンス化する。
- 参考スコア(独自算出の注目度): 6.274925330092855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many efficient approximate self-attention techniques have become prevalent
since the inception of the transformer architecture. Two popular classes of
these techniques are low-rank and kernel methods. Each of these methods has its
own strengths. We observe these strengths synergistically complement each other
and exploit these synergies to fuse low-rank and kernel methods, producing a
new class of transformers: FLuRKA (Fast Low-Rank and Kernel Attention). FLuRKA
provide sizable performance gains over these approximate techniques and are of
high quality. We theoretically and empirically evaluate both the runtime
performance and quality of FLuRKA. Our runtime analysis posits a variety of
parameter configurations where FLuRKA exhibit speedups and our accuracy
analysis bounds the error of FLuRKA with respect to full-attention. We
instantiate three FLuRKA variants which experience empirical speedups of up to
3.3x and 1.7x over low-rank and kernel methods respectively. This translates to
speedups of up to 30x over models with full-attention. With respect to model
quality, FLuRKA can match the accuracy of low-rank and kernel methods on GLUE
after pre-training on wiki-text 103. When pre-training on a fixed time budget,
FLuRKA yield better perplexity scores than models with full-attention.
- Abstract(参考訳): トランスアーキテクチャの開始以来,多くの効率的な自己認識技術が普及している。
これらの技法の2つの一般的なクラスは低ランクとカーネルメソッドである。
これらの方法にはそれぞれ独自の強みがある。
我々はこれらの強みを相乗的に補完し、これらの相乗効果を利用して低ランクおよびカーネル法を融合し、FLuRKA(Fast Low-Rank and Kernel Attention)という新しい変圧器のクラスを生成する。
FLuRKAは、これらの近似技術よりも大きな性能向上を提供し、高品質である。
FLuRKAのランタイム性能と品質を理論的・実験的に評価する。
我々の実行時解析は,FLuRKAがスピードアップを示すようなパラメータ構成を多用し,精度解析はフルアテンションに関してFLuRKAの誤差を限定する。
低ランク法とカーネル法でそれぞれ3.3倍と1.7倍という経験的なスピードアップを経験するFLuRKAの3つの変種をインスタンス化する。
これはフルアテンションモデルに比べて最大30倍のスピードアップとなる。
モデル品質に関して、FLuRKAはwiki-text 103で事前学習した後、GLUE上の低ランクおよびカーネルメソッドの精度と一致する。
固定時間予算で事前トレーニングを行う場合、FLuRKAはフルアテンションのモデルよりも複雑なスコアを得る。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - NASH: Neural Architecture and Accelerator Search for Multiplication-Reduced Hybrid Models [6.349667343767052]
NASHは、乗算還元ハイブリッドモデルのためのニューラルアーキテクチャとアクセラレータ検索フレームワークである。
そこで本研究では,学習前に有望なハイブリッドモデルの事前同定を行うため,ゼロショットの調整手法を提案する。
また,検索プロセスの合理化のために,粗大な検索も導入する。
論文 参考訳(メタデータ) (2024-09-07T13:42:40Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes [7.5991638205413325]
トレーニングポイントが$N$の場合、正確な推論は$O(N3)$コストを持ち、$M ll N$機能により、アートスパース変分メソッドの状態は$O(NM2)$コストを持つ。
近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。
本稿では,Fourier機能の統合について提案する。これは,これらのパフォーマンスのメリットを,より広範な定常的コのクラスに拡張するものである。
論文 参考訳(メタデータ) (2023-08-27T15:44:28Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z) - FedDA: Faster Framework of Local Adaptive Gradient Methods via Restarted
Dual Averaging [104.41634756395545]
フェデレートラーニング(Federated Learning, FL)は、大規模な分散データに取り組むための新たな学習パラダイムである。
局所適応勾配法のための新しいフレームワークである textbfFedDA を提案する。
textbfFedDA-MVR は適応FLアルゴリズムとしては初めてこの速度を実現することを示す。
論文 参考訳(メタデータ) (2023-02-13T05:10:30Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - TadML: A fast temporal action detection with Mechanics-MLP [0.5148939336441986]
時間的行動検出(TAD)はビデオ理解において不可欠だが難しい課題である。
現在のモデルでは、TADタスクにRGBとOpto-Flowストリームが採用されている。
本稿では,RGBストリームのみを用いたワンステージアンカーフリー時間的ローカライズ手法を提案し,新しいニュートン力学-MLPアーキテクチャを構築した。
論文 参考訳(メタデータ) (2022-06-07T04:07:48Z) - CFedAvg: Achieving Efficient Communication and Fast Convergence in
Non-IID Federated Learning [8.702106020664612]
フェデレートラーニング(Federated Learning, FL)は、多くの労働者がトレーニングデータを共有せずにモデルを共同で学習する分散ラーニングパラダイムである。
FLでは、ディープラーニング(ディープ)学習モデルと帯域幅接続によって高い通信コストが発生する可能性がある。
本研究では,非バイアスのSNR制約圧縮機を用いたFL用分散通信データセットCFedAvgを紹介する。
論文 参考訳(メタデータ) (2021-06-14T04:27:19Z) - DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching
and Pair Modeling [24.07558669713062]
テキストペアタスクの高速かつ正確なモデルを蒸留するためのフレームワークであるDiPairを提案する。
スケーラビリティも高く、品質と速度のトレードオフも改善されている。
学術および実世界のeコマースベンチマークで実施された実証研究は,提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2020-10-07T01:19:23Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。