論文の概要: Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration
- arxiv url: http://arxiv.org/abs/2404.12022v1
- Date: Thu, 18 Apr 2024 09:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:51:17.621104
- Title: Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration
- Title(参考訳): ロスレス大言語モデル高速化のための隠れ転送による並列デコーディング
- Authors: Pengfei Wu, Jiahao Liu, Zhuocheng Gong, Qifan Wang, Jinpeng Li, Jingang Wang, Xunliang Cai, Dongyan Zhao,
- Abstract要約: 本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
- 参考スコア(独自算出の注目度): 54.897493351694195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently shown remarkable performance across a wide range of tasks. However, the substantial number of parameters in LLMs contributes to significant latency during model inference. This is particularly evident when utilizing autoregressive decoding methods, which generate one token in a single forward process, thereby not fully capitalizing on the parallel computing capabilities of GPUs. In this paper, we propose a novel parallel decoding approach, namely \textit{hidden transfer}, which decodes multiple successive tokens simultaneously in a single forward pass. The idea is to transfer the intermediate hidden states of the previous context to the \textit{pseudo} hidden states of the future tokens to be generated, and then the pseudo hidden states will pass the following transformer layers thereby assimilating more semantic information and achieving superior predictive accuracy of the future tokens. Besides, we use the novel tree attention mechanism to simultaneously generate and verify multiple candidates of output sequences, which ensure the lossless generation and further improves the generation efficiency of our method. Experiments demonstrate the effectiveness of our method. We conduct a lot of analytic experiments to prove our motivation. In terms of acceleration metrics, we outperform all the single-model acceleration techniques, including Medusa and Self-Speculative decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、幅広いタスクで顕著なパフォーマンスを示している。
しかし、LLMのかなりの数のパラメータは、モデル推論における大きな遅延に寄与する。
これは、単一のフォワードプロセスでトークンを1つ生成し、GPUの並列コンピューティング能力を十分に活用できない自動回帰復号法を利用する場合、特に顕著である。
本稿では,複数の連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわち「textit{hidden transfer}」を提案する。
この考え方は、前のコンテキストの中間的な隠れ状態が生成すべき未来のトークンの隠れ状態であるtextit{pseudo}に転送し、擬似隠蔽状態が次のトランスフォーマー層を通過させることで、より多くの意味情報を同化し、将来のトークンの予測精度を優れたものにするというものである。
さらに,新たなツリーアテンション機構を用いて,出力シーケンスの複数の候補を同時に生成し,検証することにより,損失のない生成を保証し,提案手法の生成効率をさらに向上する。
実験により,本手法の有効性が示された。
モチベーションを証明するために、多くの分析実験を行います。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
関連論文リスト
- Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge [24.203554078434365]
並列復号処理にシーケンシャルな知識を統合する新しい投機的復号アルゴリズムであるCloverを提案する。
クローバーは、バイチュアン=スモールでは91%、バイチュアン=ラージュでは146%でベースラインを上回っている。
論文 参考訳(メタデータ) (2024-05-01T00:46:22Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Lookahead: An Inference Acceleration Framework for Large Language Model
with Lossless Generation Accuracy [42.27171890669346]
本稿では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現した。
我々は,複数のブランチを同時に生成できるtextitTrie-based Retrieval (TR) プロセスを提案する。
各ブランチに対して、最も長い正しいサブシーケンスを最終出力として識別するために、textitVerification and Accept(VA)プロセスが実行される。
論文 参考訳(メタデータ) (2023-12-20T02:55:15Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。