Fugu-MT 論文翻訳(概要): FLuRKA: Fast fused Low-Rank & Kernel Attention

論文の概要: FLuRKA: Fast fused Low-Rank & Kernel Attention

arxiv url: http://arxiv.org/abs/2306.15799v1
Date: Tue, 27 Jun 2023 20:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 16:35:25.091313
Title: FLuRKA: Fast fused Low-Rank & Kernel Attention
Title（参考訳）: flurka: 高速に融合した低ランクとカーネルの注意
Authors: Ahan Gupta, Yueming Yuan, Yanqi Zhou and Charith Mendis
Abstract要約: FLuRKA (Fast Low-Rank and Kernel Attention) FLuRKAのランタイム性能と品質を理論的・実験的に評価する。低ランク法とカーネル法でそれぞれ3.3倍と1.7倍という経験的なスピードアップを経験するFLuRKAの3つの変種をインスタンス化する。
参考スコア（独自算出の注目度）: 6.274925330092855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many efficient approximate self-attention techniques have become prevalent since the inception of the transformer architecture. Two popular classes of these techniques are low-rank and kernel methods. Each of these methods has its own strengths. We observe these strengths synergistically complement each other and exploit these synergies to fuse low-rank and kernel methods, producing a new class of transformers: FLuRKA (Fast Low-Rank and Kernel Attention). FLuRKA provide sizable performance gains over these approximate techniques and are of high quality. We theoretically and empirically evaluate both the runtime performance and quality of FLuRKA. Our runtime analysis posits a variety of parameter configurations where FLuRKA exhibit speedups and our accuracy analysis bounds the error of FLuRKA with respect to full-attention. We instantiate three FLuRKA variants which experience empirical speedups of up to 3.3x and 1.7x over low-rank and kernel methods respectively. This translates to speedups of up to 30x over models with full-attention. With respect to model quality, FLuRKA can match the accuracy of low-rank and kernel methods on GLUE after pre-training on wiki-text 103. When pre-training on a fixed time budget, FLuRKA yield better perplexity scores than models with full-attention.
Abstract（参考訳）: トランスアーキテクチャの開始以来,多くの効率的な自己認識技術が普及している。これらの技法の2つの一般的なクラスは低ランクとカーネルメソッドである。これらの方法にはそれぞれ独自の強みがある。我々はこれらの強みを相乗的に補完し、これらの相乗効果を利用して低ランクおよびカーネル法を融合し、FLuRKA(Fast Low-Rank and Kernel Attention)という新しい変圧器のクラスを生成する。 FLuRKAは、これらの近似技術よりも大きな性能向上を提供し、高品質である。 FLuRKAのランタイム性能と品質を理論的・実験的に評価する。我々の実行時解析は,FLuRKAがスピードアップを示すようなパラメータ構成を多用し,精度解析はフルアテンションに関してFLuRKAの誤差を限定する。低ランク法とカーネル法でそれぞれ3.3倍と1.7倍という経験的なスピードアップを経験するFLuRKAの3つの変種をインスタンス化する。これはフルアテンションモデルに比べて最大30倍のスピードアップとなる。モデル品質に関して、FLuRKAはwiki-text 103で事前学習した後、GLUE上の低ランクおよびカーネルメソッドの精度と一致する。固定時間予算で事前トレーニングを行う場合、FLuRKAはフルアテンションのモデルよりも複雑なスコアを得る。

関連論文リスト

Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文参考訳（メタデータ） (2025-05-19T17:59:42Z)
Distributed Quasi-Newton Method for Fair and Fast Federated Learning [0.0]
フェデレートラーニング(FL)は、エッジデバイス/クライアントが中央サーバの協調の下で、機械学習モデルを協調的かつ反復的にトレーニングすることを可能にする。 textbfdistributed textbfquasi-textbfNewton textbffederated Learning (DQN-Fed) と呼ばれる新しい2次FLフレームワークを導入する。このアプローチは、FL文脈における準ニュートン法の高速収束特性を活用しつつ、公平性を確保することを目指している。
論文参考訳（メタデータ） (2025-01-18T20:59:07Z)
RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations [8.346566205092433]
RecConvは、小さなカーネル畳み込みを用いた多周波表現を効率的に構築する分解戦略である。 RecNeXt-M3 は RepViT-M1.1 を COCO 上で 1.9$APbox$ で上回っている。
論文参考訳（メタデータ） (2024-12-27T13:13:52Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
NASH: Neural Architecture and Accelerator Search for Multiplication-Reduced Hybrid Models [6.349667343767052]
NASHは、乗算還元ハイブリッドモデルのためのニューラルアーキテクチャとアクセラレータ検索フレームワークである。そこで本研究では,学習前に有望なハイブリッドモデルの事前同定を行うため,ゼロショットの調整手法を提案する。また,検索プロセスの合理化のために,粗大な検索も導入する。
論文参考訳（メタデータ） (2024-09-07T13:42:40Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
SE(3)-Stochastic Flow Matching for Protein Backbone Generation [54.951832422425454]
我々はFoldFlowを紹介した。FoldFlowは,3mathrmD$の剛性運動に対するフローマッチングパラダイムに基づく,モデリング能力向上のための新しい生成モデルである。 FoldFlow生成モデルのファミリーは、タンパク質の生成モデルに対する従来のアプローチよりもいくつかの利点を提供している。
論文参考訳（メタデータ） (2023-10-03T19:24:24Z)
Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes [7.5991638205413325]
トレーニングポイントが$N$の場合、正確な推論は$O(N3)$コストを持ち、$M ll N$機能により、アートスパース変分メソッドの状態は$O(NM2)$コストを持つ。近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。本稿では,Fourier機能の統合について提案する。これは,これらのパフォーマンスのメリットを,より広範な定常的コのクラスに拡張するものである。
論文参考訳（メタデータ） (2023-08-27T15:44:28Z)
AMOM: Adaptive Masking over Masking for Conditional Masked Language Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文参考訳（メタデータ） (2023-03-13T20:34:56Z)
FedDA: Faster Framework of Local Adaptive Gradient Methods via Restarted Dual Averaging [104.41634756395545]
フェデレートラーニング(Federated Learning, FL)は、大規模な分散データに取り組むための新たな学習パラダイムである。局所適応勾配法のための新しいフレームワークである textbfFedDA を提案する。 textbfFedDA-MVR は適応FLアルゴリズムとしては初めてこの速度を実現することを示す。
論文参考訳（メタデータ） (2023-02-13T05:10:30Z)
Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。 GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。 GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文参考訳（メタデータ） (2022-12-15T06:52:31Z)
Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文参考訳（メタデータ） (2022-07-18T15:05:17Z)
TadML: A fast temporal action detection with Mechanics-MLP [0.5148939336441986]
時間的行動検出(TAD)はビデオ理解において不可欠だが難しい課題である。現在のモデルでは、TADタスクにRGBとOpto-Flowストリームが採用されている。本稿では,RGBストリームのみを用いたワンステージアンカーフリー時間的ローカライズ手法を提案し,新しいニュートン力学-MLPアーキテクチャを構築した。
論文参考訳（メタデータ） (2022-06-07T04:07:48Z)
CFedAvg: Achieving Efficient Communication and Fast Convergence in Non-IID Federated Learning [8.702106020664612]
フェデレートラーニング(Federated Learning, FL)は、多くの労働者がトレーニングデータを共有せずにモデルを共同で学習する分散ラーニングパラダイムである。 FLでは、ディープラーニング(ディープ)学習モデルと帯域幅接続によって高い通信コストが発生する可能性がある。本研究では,非バイアスのSNR制約圧縮機を用いたFL用分散通信データセットCFedAvgを紹介する。
論文参考訳（メタデータ） (2021-06-14T04:27:19Z)
Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文参考訳（メタデータ） (2020-10-08T18:36:51Z)
DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling [24.07558669713062]
テキストペアタスクの高速かつ正確なモデルを蒸留するためのフレームワークであるDiPairを提案する。スケーラビリティも高く、品質と速度のトレードオフも改善されている。学術および実世界のeコマースベンチマークで実施された実証研究は,提案手法の有効性を実証している。
論文参考訳（メタデータ） (2020-10-07T01:19:23Z)
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。 FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2020-08-06T08:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。