論文の概要: APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding
- arxiv url: http://arxiv.org/abs/2401.06761v1
- Date: Fri, 12 Jan 2024 18:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:34:31.041018
- Title: APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding
- Title(参考訳): APAR: LLMは自動並列自動回帰デコードが可能
- Authors: Mingdao Liu and Aohan Zeng and Bowen Wang and Peng Zhang and Jie Tang
and Yuxiao Dong
- Abstract要約: 自動回帰復号化は、ほとんどの大規模言語モデル(LLM)がテキストを生成する方法の基本である。
階層構造を含む一般的なドメインデータに対して,並列自動回帰生成法を導入する。
APAR単独で最大2倍のスピードアップを達成でき、投機的復号と組み合わせると最大4倍のスピードアップを達成することができる。
- 参考スコア(独自算出の注目度): 32.87189916876813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The massive adoption of large language models (LLMs) demands efficient
deployment strategies. However, the auto-regressive decoding process, which is
fundamental to how most LLMs generate text, poses challenges to achieve
efficient serving. In this work, we introduce a parallel auto-regressive
generation method. By instruct-tuning on general domain data that contains
hierarchical structures, we enable LLMs to independently plan their generation
process and perform auto-parallel auto-regressive (APAR) generation,
significantly reducing the number of generation steps. APAR alone can achieve
up to 2x speed-up, and when combined with speculative decoding, the speed-up
can reach up to 4x. In addition, APAR reduces the key-value cache consumption
and attention computation during generation. This leads to a throughput
increase of 20-70% and a latency reduce of 20-35% in high-throughput scenarios,
compared to state-of-the-art serving frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)の大規模な採用は、効率的なデプロイメント戦略を必要とする。
しかし、ほとんどのLLMがテキストを生成する方法の基本である自動回帰復号処理は、効率的なサービスを実現するための課題を提起する。
本研究では,並列自動回帰生成手法を提案する。
階層構造を含む一般的なドメインデータをインストラクションすることで、LCMは独立して生成プロセスを計画し、自動並列自動回帰(APAR)生成を実行でき、生成ステップの数を大幅に削減できる。
APARだけで最大2倍のスピードアップが達成でき、投機的復号と組み合わせると最大4倍のスピードアップが得られる。
さらに、APARは生成中のキー値キャッシュの消費と注意計算を減らす。
これにより、スループットが20~70%向上し、高スループットシナリオではレイテンシが20~35%削減される。
関連論文リスト
- FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [16.66039039507951]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - Efficient LLM inference solution on Intel GPU [15.986315440248294]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - eTOP: Early Termination of Pipelines for Faster Training of AutoML
Systems [12.933957727351666]
適切なAI/MLモデルを見つけるのは、複雑でコストのかかるプロセスです。
我々は,任意のAutoMLシステム上で動作するeTOPフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:22:30Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。