Fugu-MT 論文翻訳(概要): FastFormers: Highly Efficient Transformer Models for Natural Language Understanding

論文の概要: FastFormers: Highly Efficient Transformer Models for Natural Language Understanding

arxiv url: http://arxiv.org/abs/2010.13382v1
Date: Mon, 26 Oct 2020 07:25:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-02 18:58:08.763066
Title: FastFormers: Highly Efficient Transformer Models for Natural Language Understanding
Title（参考訳）: fastformers: 自然言語理解のための高効率トランスフォーマーモデル
Authors: Young Jin Kim and Hany Hassan Awadalla
Abstract要約: 我々は,様々なNLUタスク上のTransformerベースのモデルに対して,効率的な推論時間性能を実現するためのレシピセットであるFastFormersを提案する。 SuperGLUEベンチマークに提案されたレシピを適用して、CPUのアウト・オブ・ザ・ボックスモデルと比較して9.8倍から233.9倍のスピードアップを達成した。我々は、FastFormersがAzure F16s_v2インスタンス上で4,223 USDから18 USDに1億のリクエストを提供するコストを大幅に削減できることを示した。
参考スコア（独自算出の注目度）: 9.3688204496122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based models are the state-of-the-art for Natural Language Understanding (NLU) applications. Models are getting bigger and better on various tasks. However, Transformer models remain computationally challenging since they are not efficient at inference-time compared to traditional approaches. In this paper, we present FastFormers, a set of recipes to achieve efficient inference-time performance for Transformer-based models on various NLU tasks. We show how carefully utilizing knowledge distillation, structured pruning and numerical optimization can lead to drastic improvements on inference efficiency. We provide effective recipes that can guide practitioners to choose the best settings for various NLU tasks and pretrained models. Applying the proposed recipes to the SuperGLUE benchmark, we achieve from 9.8x up to 233.9x speed-up compared to out-of-the-box models on CPU. On GPU, we also achieve up to 12.4x speed-up with the presented methods. We show that FastFormers can drastically reduce cost of serving 100 million requests from 4,223 USD to just 18 USD on an Azure F16s_v2 instance. This translates to a sustainable runtime by reducing energy consumption 6.9x - 125.8x according to the metrics used in the SustaiNLP 2020 shared task.
Abstract（参考訳）: Transformerベースのモデルは、自然言語理解(NLU)アプリケーションのための最先端技術である。さまざまなタスクにおいて、モデルはますます大きくなっています。しかし、Transformerモデルは従来の手法に比べて推論時の効率が良くないため、計算的に困難である。本稿では,様々なnluタスクにおけるトランスフォーマティブモデルの効率的な推論時間性能を実現するためのレシピであるfastformersを提案する。本研究では, 知識蒸留, 構造化プルーニング, 数値最適化が, 推論効率を大幅に向上させることを示す。我々は,NLUタスクや事前学習モデルに最適な設定を選択するための効果的なレシピを提供する。 SuperGLUEベンチマークに提案されたレシピを適用して、CPUのアウト・オブ・ボックスモデルと比較して9.8倍から233.9倍のスピードアップを達成した。 GPUでは、提案手法で最大12.4倍のスピードアップを実現しています。我々は、FastFormersがAzure F16s_v2インスタンス上で4,223 USDから18 USDに1億のリクエストを提供するコストを大幅に削減できることを示した。これは、SustaiNLP 2020共有タスクで使用されるメトリクスに従って、エネルギー消費を6.9x - 125.8x削減することで、持続可能なランタイムに変換される。

関連論文リスト

TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [20.712053538676116]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。 TREADは計算コストを削減し、同時にモデル性能を向上することを示す。ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文参考訳（メタデータ） (2025-01-08T18:38:25Z)
LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文参考訳（メタデータ） (2024-12-17T01:12:35Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。 Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B) はLlama-3.1-70B-Instructから派生した一般公開モデルである。
論文参考訳（メタデータ） (2024-11-28T13:45:42Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
Exponentially Faster Language Modelling [28.852535686791406]
提案するUltraFastBERTは、類似のBERTモデルと同等に動作しながら、推論中に0.3%のニューロンを使用するBERT変異体である。最適化されたベースラインフィードフォワード実装よりも78倍高速化されたハイレベルCPUコードと、同等のバッチフィードフォワード推論よりも40倍高速化されたPyTorch実装を提供する。
論文参考訳（メタデータ） (2023-11-15T18:42:50Z)
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文参考訳（メタデータ） (2023-05-11T17:59:41Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文参考訳（メタデータ） (2022-11-09T18:50:38Z)
Fast DistilBERT on CPUs [13.29188219884869]
トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
論文参考訳（メタデータ） (2022-10-27T07:22:50Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T07:41:11Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。