論文の概要: FastSeq: Make Sequence Generation Faster
- arxiv url: http://arxiv.org/abs/2106.04718v1
- Date: Tue, 8 Jun 2021 22:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:28:11.701982
- Title: FastSeq: Make Sequence Generation Faster
- Title(参考訳): FastSeq: シーケンス生成を高速化
- Authors: Yu Yan, Fei Hu, Jiusheng Chen, Nikhil Bhendawade, Ting Ye, Yeyun Gong,
Nan Duan, Desheng Cui, Bingyu Chi and Ruifei Zhang
- Abstract要約: 我々は,精度を損なわずにシーケンス生成を高速化するFastSeqフレームワークを開発した。
様々なモデルで広く使われているベンチマークの結果は、4-9倍の推論速度向上を示す。
FastSeqは単純な1行のコード変更で簡単に使える。
- 参考スコア(独自算出の注目度): 20.920579109726024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have made tremendous impacts in natural language
generation. However the inference speed is a bottleneck due to large model size
and intensive computing involved in auto-regressive decoding process. We
develop FastSeq framework to accelerate sequence generation without accuracy
loss. The proposed optimization techniques include an attention cache
optimization, an efficient algorithm for detecting repeated n-grams, and an
asynchronous generation pipeline with parallel I/O. These optimizations are
general enough to be applicable to Transformer-based models (e.g., T5, GPT2,
and UniLM). Our benchmark results on a set of widely used and diverse models
demonstrate 4-9x inference speed gain. Additionally, FastSeq is easy to use
with a simple one-line code change. The source code is available at
https://github.com/microsoft/fastseq.
- Abstract(参考訳): トランスフォーマーベースのモデルは自然言語生成に多大な影響を与えた。
しかし、推論速度は、モデルのサイズが大きくなり、自動回帰復号処理に係わる集中型計算によってボトルネックとなる。
精度損失のないシーケンス生成を高速化するFastSeqフレームワークを開発した。
提案手法は、アテンションキャッシュ最適化、繰り返しn-gramを検出する効率的なアルゴリズム、並列I/Oによる非同期生成パイプラインを含む。
これらの最適化はトランスフォーマーベースのモデル(t5、gpt2、unilmなど)に適用できるほど一般的である。
ベンチマークの結果,多種多様なモデルが4~9倍の推算速度向上を示した。
さらに、FastSeqは単純な1行のコード変更で簡単に使える。
ソースコードはhttps://github.com/microsoft/fastseqで入手できる。
関連論文リスト
- Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Planning with Large Language Models for Code Generation [100.07232672883897]
Planning-Guided Transformer Decoding (PG-TD) は、計画アルゴリズムを用いてルックアヘッド検索を行い、トランスフォーマーを誘導してより良いプログラムを生成する。
我々は、公開コーディングチャレンジベンチマークのバックボーンとして、いくつかの大きな言語モデルを用いて、我々のフレームワークを実証的に評価する。
論文 参考訳(メタデータ) (2023-03-09T18:59:47Z) - Fast Inference from Transformers via Speculative Decoding [3.950600027250452]
Transformersのような大規模な自己回帰モデルからの推論は遅く、Kトークンの復号化はモデルのKシリアル実行を伴います。
本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。
論文 参考訳(メタデータ) (2022-11-30T17:33:28Z) - Fast DistilBERT on CPUs [13.29188219884869]
トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。
業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。
我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
論文 参考訳(メタデータ) (2022-10-27T07:22:50Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Cascaded Fast and Slow Models for Efficient Semantic Code Search [46.53530668938728]
本稿では,高速かつ低速なモデルを用いた効率的かつ高精度な意味コード検索フレームワークを提案する。
提案したカスケードアプローチは効率的でスケーラブルなだけでなく,最先端の結果も達成している。
論文 参考訳(メタデータ) (2021-10-15T02:23:35Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - LightSeq: A High Performance Inference Library for Transformers [39.13192008249629]
LightSeqはTransformerモデルのための非常に効率的な推論ライブラリである。
LightSeqには、ニューラルネットワークレイヤの合理化とメモリフットプリント削減のための一連の最適化テクニックが含まれている。
論文 参考訳(メタデータ) (2020-10-23T13:45:26Z) - FastWave: Accelerating Autoregressive Convolutional Neural Networks on
FPGA [27.50143717931293]
WaveNetは、拡張畳み込みの複数のレイヤで構成された、深く自己回帰的なCNNである。
我々は,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータtextitFastWaveを開発した。
論文 参考訳(メタデータ) (2020-02-09T06:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。