論文の概要: Chimera: A Lossless Decoding Method for Accelerating Large Language
Models Inference by Fusing all Tokens
- arxiv url: http://arxiv.org/abs/2402.15758v1
- Date: Sat, 24 Feb 2024 08:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:59:16.021708
- Title: Chimera: A Lossless Decoding Method for Accelerating Large Language
Models Inference by Fusing all Tokens
- Title(参考訳): Chimera: すべてのトークンを融合して大規模言語モデル推論を高速化するロスレスデコーディング手法
- Authors: Ziqian Zeng, Jiahong Yu, Qianshi Pang, Zihao Wang, Huiping Zhuang, Cen
Chen
- Abstract要約: 投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
- 参考スコア(独自算出の注目度): 25.677308132947218
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across
various tasks. However, their widespread application is hindered by the
resource-intensive decoding process. To address this challenge, current
approaches have incorporated additional decoding heads to enable parallel
prediction of multiple subsequent tokens, thereby achieving inference
acceleration. Nevertheless, the accuracy of these decoding heads falls short of
the auto-regressive decoding approach.
In light of these limitations, we propose Chimera, a novel framework
specifically designed for speculative sampling. Within this framework, we
introduce a lightweight draft model that effectively utilizes previously
generated tokens to predict subsequent words. To ensure both accuracy and
efficiency, we present two strategies within the lightweight draft model.
Firstly, we focus on capturing short-range dependencies at the bottom layer.
Secondly, we leverage the readily available representations from the original
LLM.Through empirical evaluation on the Vicuna and LlaMA-2 series, Chimera
demonstrates impressive results, achieving an average latency speedup ratio of
2.7x compared to the vanilla auto-regressive decoding approach. This highlights
the potential of our proposed framework in significantly improving the
efficiency of large language models during the decoding process.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なタスクにまたがる顕著な能力を示している。
しかし、それらの応用はリソース集約的な復号処理によって妨げられる。
この課題に対処するため、現在のアプローチでは、複数の後続トークンの並列予測を可能にするために、追加の復号ヘッドが組み込まれている。
それでも、これらの復号ヘッドの精度は自己回帰復号法に劣る。
これらの制約を考慮して,投機的サンプリングに特化した新しいフレームワークであるChimeraを提案する。
このフレームワークでは、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入します。
精度と効率の両立を図るため,軽量ドラフトモデルに2つの戦略を提案する。
まず、下位層での短距離依存関係のキャプチャに焦点を当てます。
次に、Vicuna と LlaMA-2 シリーズでの実証的な評価から、Chimera は、Vicuna と LlaMA-2 シリーズにおいて、バニラ自己回帰復号法と比較して平均2.7倍の遅延速度向上率を達成するという印象的な結果を示した。
これは、デコードプロセス中の大規模言語モデルの効率を大幅に向上させる、提案フレームワークの可能性を強調します。
関連論文リスト
- Ouroboros: Speculative Decoding with Large Model Enhanced Drafting [75.34417163859018]
我々は,大規模言語モデルの検証プロセスから句候補プールを構築するOuroborosを紹介した。
Ouroborosは、ルックアヘッドの復号化や投機的復号化と比較して、最大1.9倍と2.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Generation Meets Verification: Accelerating Large Language Model
Inference with Smart Parallel Auto-Correct Decoding [12.538348206151424]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [28.07947754770082]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文 参考訳(メタデータ) (2024-01-26T18:59:01Z) - Unlocking Efficiency in Large Language Model Inference: A Comprehensive
Survey of Speculative Decoding [48.23348694701169]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。
復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。
本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文 参考訳(メタデータ) (2024-01-15T17:26:50Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z) - Draft & Verify: Lossless Large Language Model Acceleration via
Self-Speculative Decoding [26.286435804599524]
本稿では,Large Language Models (LLMs) の高速化を目的とした新しい推論手法,自己投機的デコーディングを提案する。
提案手法では、追加のニューラルネットワークトレーニングを必要とせず、メモリフットプリントを必要とせず、推論アクセラレーションのためのプラグアンドプレイソリューションとなる。
LLaMA-2とその微調整されたモデルによるベンチマークでは、最大1.73$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。