論文の概要: Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference
- arxiv url: http://arxiv.org/abs/2407.09722v2
- Date: Wed, 02 Oct 2024 16:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:10.442368
- Title: Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference
- Title(参考訳): LLM推論のための補助モデルを用いた最適多点関節復号法
- Authors: Zongyue Qin, Ziniu Hu, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めた。
推論プロセスは、デコードの各ステップにおける単一トーケン生成により、相当な時間とエネルギー要求によって妨げられる。
MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
- 参考スコア(独自算出の注目度): 41.93955876156331
- License:
- Abstract: Large language models (LLMs) have achieved remarkable success across diverse tasks, yet their inference processes are hindered by substantial time and energy demands due to single-token generation at each decoding step. While previous methods such as speculative decoding mitigate these inefficiencies by producing multiple tokens per step, each token is still generated by its single-token distribution, thereby enhancing speed without improving effectiveness. In contrast, our work simultaneously enhances inference speed and improves the output effectiveness. We consider multi-token joint decoding (MTJD), which generates multiple tokens from their joint distribution at each iteration, theoretically reducing perplexity and enhancing task performance. However, MTJD suffers from the high cost of sampling from the joint distribution of multiple tokens. Inspired by speculative decoding, we introduce multi-token assisted decoding (MTAD), a novel framework designed to accelerate MTJD. MTAD leverages a smaller auxiliary model to approximate the joint distribution of a larger model, incorporating a verification mechanism that not only ensures the accuracy of this approximation, but also improves the decoding efficiency over conventional speculative decoding. Theoretically, we demonstrate that MTAD closely approximates exact MTJD with bounded error. Empirical evaluations using Llama-2 and OPT models ranging from 13B to 70B parameters across various tasks reveal that MTAD reduces perplexity by 21.2% and improves downstream performance compared to standard single-token sampling. Furthermore, MTAD achieves a 1.42x speed-up and consumes 1.54x less energy than conventional speculative decoding methods. These results highlight MTAD's ability to make multi-token joint decoding both effective and efficient, promoting more sustainable and high-performance deployment of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにまたがって顕著な成功を収めてきたが、その推論プロセスは各デコードステップにおける単一トーケン生成により、かなりの時間とエネルギー要求によって妨げられている。
投機的復号化のような従来の手法は、各ステップごとに複数のトークンを生成することで、これらの非効率性を緩和するが、各トークンは、その単一トークン分布によって依然として生成され、有効性を向上することなく速度を向上する。
対照的に、我々の研究は推論速度を同時に向上し、出力効率を向上させる。
我々は,各繰り返しにおける関節分布から複数のトークンを生成するマルチトークン共同復号法(MTJD)について検討し,理論的には難易度を低減し,タスク性能を向上する。
しかし、MTJDは複数のトークンの結合分布からサンプリングするコストが高い。
MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
MTADは、より小さな補助モデルを利用して、より大きなモデルの結合分布を近似し、この近似の精度を保証するだけでなく、従来の投機的復号よりも復号効率を向上させる検証機構を組み込んだ。
理論的には、MTADが正確なMTJDと有界誤差を密接に近似していることが示される。
Llama-2 と OPT モデルを用いた実験的な評価により、MTAD は通常のシングルトーケンサンプリングに比べてパープレキシティを 21.2% 削減し、ダウンストリーム性能を向上させることが明らかとなった。
さらにMTADは1.42倍のスピードアップを実現し、従来の投機的復号法よりも1.54倍少ないエネルギーを消費する。
これらの結果から, MTADは, 効率と効率を両立させ, より持続的かつ高性能なLCMの展開を促進できることを示す。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。