論文の概要: FLuRKA: Fast and accurate unified Low-Rank & Kernel Attention
- arxiv url: http://arxiv.org/abs/2306.15799v2
- Date: Sun, 2 Jun 2024 13:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 21:20:11.230581
- Title: FLuRKA: Fast and accurate unified Low-Rank & Kernel Attention
- Title(参考訳): FLuRKA:高速かつ正確に統一された低ランク&カーネルアテンション
- Authors: Ahan Gupta, Hao Guo, Yueming Yuan, Yanqi Zhou, Charith Mendis,
- Abstract要約: 自己保持技法の2つの一般的なクラスは低ランク法とカーネル法である。
我々はこれらの長所を利用して低ランクとカーネルの手法を融合し、新しい変圧器であるFLuRKAを生み出した。
FLuRKAの速度と品質を理論的・実験的に評価した。
- 参考スコア(独自算出の注目度): 5.016377120420361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many efficient $\textit{approximate}$ self-attention techniques have become prevalent since the inception of the transformer architecture. Two popular classes of these techniques are low-rank and kernel methods. Each of these methods has its strengths. We observe these strengths synergistically complement each other and exploit them to fuse low-rank and kernel methods, producing a new class of transformers: FLuRKA ($\textbf{F}$ast $\textbf{L}$ow-$\textbf{R}$ank & $\textbf{K}$ernel$ \textbf{A}$ttention). FLuRKA are highly $\textit{training-efficient}$ with faster model speeds $\textit{and}$ similar model qualities compared to constituent low-rank and kernel methods. We theoretically and empirically evaluate the speed and quality of FLuRKA. Our model speed analysis posits a variety of parameter configurations where FLuRKA exhibit speedups over low-rank and kernel approximations and our model quality analysis bounds the error of FLuRKA with respect to full-attention. Empirically, we instantiate three FLuRKA variants which experience speedups of up to 3.3x and 1.7x over low-rank and kernel methods respectively. This translates to speedups of up to 20x over models with flash-attention. Across a diverse set of tasks spanning language modeling, language understanding, long sequence modeling, machine translation, and image classification, FLuRKA achieve comparable accuracy with underlying low-rank and kernel approximations, occasionally surpassing both.
- Abstract(参考訳): 多くの効率的な $\textit{approximate}$ self-attention 技術は、トランスフォーマーアーキテクチャの開始以来普及している。
これらの技法の2つの一般的なクラスは低ランクとカーネルメソッドである。
これらの手法にはそれぞれの長所がある。
FLuRKA ($\textbf{F}$ast $\textbf{L}$ow-$\textbf{R}$ank & $\textbf{K}$ernel$ \textbf{A}$ttention。
FLuRKAは高い$\textit{training-efficient}$で、より高速なモデル速度を持つ。
FLuRKAの速度と品質を理論的・実験的に評価した。
我々のモデル速度解析は、FLuRKAが低ランクおよびカーネル近似の高速化を示す様々なパラメータ構成を示し、モデル品質解析はフルアテンションに関してFLuRKAの誤差を限定する。
経験的に、低ランク法とカーネル法で最大3.3倍と1.7倍のスピードアップを経験するFLuRKAの3つの変種をインスタンス化する。
これは、フラッシュアテンションのあるモデルよりも最大20倍のスピードアップになる。
言語モデリング、言語理解、長いシーケンスモデリング、機械翻訳、画像分類にまたがる様々なタスクにまたがって、FLuRKAは下層の低ランクおよびカーネル近似と同等の精度を達成し、時には両方を上回ります。
関連論文リスト
- DreamFlow: High-Quality Text-to-3D Generation by Approximating Probability Flow [72.9209434105892]
本稿では,T2I拡散を利用したテキスト・ツー・3Dの最適化手法を提案する。
提案手法を応用して,実用的な3段階間粗大なテキスト・ツー・3D最適化フレームワークであるDreamFlowを設計する。
論文 参考訳(メタデータ) (2024-03-22T05:38:15Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes [7.5991638205413325]
トレーニングポイントが$N$の場合、正確な推論は$O(N3)$コストを持ち、$M ll N$機能により、アートスパース変分メソッドの状態は$O(NM2)$コストを持つ。
近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。
本稿では,Fourier機能の統合について提案する。これは,これらのパフォーマンスのメリットを,より広範な定常的コのクラスに拡張するものである。
論文 参考訳(メタデータ) (2023-08-27T15:44:28Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z) - FedDA: Faster Framework of Local Adaptive Gradient Methods via Restarted
Dual Averaging [104.41634756395545]
フェデレートラーニング(Federated Learning, FL)は、大規模な分散データに取り組むための新たな学習パラダイムである。
局所適応勾配法のための新しいフレームワークである textbfFedDA を提案する。
textbfFedDA-MVR は適応FLアルゴリズムとしては初めてこの速度を実現することを示す。
論文 参考訳(メタデータ) (2023-02-13T05:10:30Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - TadML: A fast temporal action detection with Mechanics-MLP [0.5148939336441986]
時間的行動検出(TAD)はビデオ理解において不可欠だが難しい課題である。
現在のモデルでは、TADタスクにRGBとOpto-Flowストリームが採用されている。
本稿では,RGBストリームのみを用いたワンステージアンカーフリー時間的ローカライズ手法を提案し,新しいニュートン力学-MLPアーキテクチャを構築した。
論文 参考訳(メタデータ) (2022-06-07T04:07:48Z) - CFedAvg: Achieving Efficient Communication and Fast Convergence in
Non-IID Federated Learning [8.702106020664612]
フェデレートラーニング(Federated Learning, FL)は、多くの労働者がトレーニングデータを共有せずにモデルを共同で学習する分散ラーニングパラダイムである。
FLでは、ディープラーニング(ディープ)学習モデルと帯域幅接続によって高い通信コストが発生する可能性がある。
本研究では,非バイアスのSNR制約圧縮機を用いたFL用分散通信データセットCFedAvgを紹介する。
論文 参考訳(メタデータ) (2021-06-14T04:27:19Z) - DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching
and Pair Modeling [24.07558669713062]
テキストペアタスクの高速かつ正確なモデルを蒸留するためのフレームワークであるDiPairを提案する。
スケーラビリティも高く、品質と速度のトレードオフも改善されている。
学術および実世界のeコマースベンチマークで実施された実証研究は,提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2020-10-07T01:19:23Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。