論文の概要: Lookahead: An Inference Acceleration Framework for Large Language Model
with Lossless Generation Accuracy
- arxiv url: http://arxiv.org/abs/2312.12728v2
- Date: Thu, 4 Jan 2024 06:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:57:35.335369
- Title: Lookahead: An Inference Acceleration Framework for Large Language Model
with Lossless Generation Accuracy
- Title(参考訳): Lookahead: ロスレス生成精度を持つ大規模言語モデルのための推論高速化フレームワーク
- Authors: Yao Zhao, Zhitian Xie, Chenyi Zhuang, Jinjie Gu
- Abstract要約: 本稿では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現した。
我々は,複数のブランチを同時に生成できるtextitTrie-based Retrieval (TR) プロセスを提案する。
各ブランチに対して、最も長い正しいサブシーケンスを最終出力として識別するために、textitVerification and Accept(VA)プロセスが実行される。
- 参考スコア(独自算出の注目度): 42.27171890669346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) have made significant advancements across
various tasks, such as question answering, translation, text summarization, and
dialogue systems, the need for accuracy in information becomes crucial,
especially for serious financial products serving billions of users like
Alipay. To address this, Alipay has developed a Retrieval-Augmented Generation
(RAG) system that grounds LLMs on the most accurate and up-to-date information.
However, for a real-world product serving millions of users, the inference
speed of LLMs becomes a critical factor compared to a mere experimental model.
Hence, this paper presents a generic framework for accelerating the inference
process, resulting in a substantial increase in speed and cost reduction for
our RAG system, with lossless generation accuracy. In the traditional inference
process, each token is generated sequentially by the LLM, leading to a time
consumption proportional to the number of generated tokens. To enhance this
process, our framework, named \textit{lookahead}, introduces a
\textit{multi-branch} strategy. Instead of generating a single token at a time,
we propose a \textit{Trie-based Retrieval} (TR) process that enables the
generation of multiple branches simultaneously, each of which is a sequence of
tokens. Subsequently, for each branch, a \textit{Verification and Accept} (VA)
process is performed to identify the longest correct sub-sequence as the final
output. Our strategy offers two distinct advantages: (1) it guarantees absolute
correctness of the output, avoiding any approximation algorithms, and (2) the
worst-case performance of our approach is equivalent to the conventional
process. We conduct extensive experiments to demonstrate the significant
improvements achieved by applying our inference acceleration framework. Code is
avaliable: https://github.com/alipay/PainlessInferenceAcceleration.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクにおいて大きな進歩を遂げているため、情報処理の正確性の必要性は、特にAlipayのような数十億のユーザーを対象とする深刻な金融製品にとって重要である。
これを解決するために、Alipayは、最も正確かつ最新の情報に基づいてLSMを基盤とする検索・拡張生成システム(RAG)を開発した。
しかし, 数百万人のユーザを対象とする実世界の製品では, LLMの推論速度は, 単なる実験モデルと比較して重要な要因となる。
そこで,本論文では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現し,生成精度を損なうことなく実現した。
従来の推論プロセスでは、各トークンはLCMによって順次生成され、生成されたトークンの数に比例する時間消費につながる。
このプロセスを強化するために、我々のフレームワークは \textit{lookahead} と呼ばれ、 \textit{multi-branch} 戦略を導入しました。
一つのトークンを一度に生成する代わりに、複数のブランチを同時に生成できる \textit{Trie-based Retrieval} (TR) プロセスを提案し、それぞれがトークンのシーケンスである。
その後、各ブランチに対して \textit{Verification and Accept} (VA) プロセスを実行し、最も長い正しいサブシーケンスを最終出力として識別する。
提案手法は,(1) 出力の絶対正当性を保証する,(2) 近似アルゴリズムの回避,(2) アプローチの最悪の性能は従来のプロセスと同等である,という2つの異なる利点を提供する。
我々は、推論加速フレームワークの適用によって達成された重要な改善を実証するために、広範な実験を行う。
コードは無効である。 https://github.com/alipay/PainlessInferenceAcceleration。
関連論文リスト
- Chimera: A Lossless Decoding Method for Accelerating Large Language
Models Inference by Fusing all Tokens [25.677308132947218]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel
Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。
ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文 参考訳(メタデータ) (2024-02-21T02:51:07Z) - PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity
Recognition [16.11114486075643]
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-07T13:39:38Z) - Prompt Optimization via Adversarial In-Context Learning [53.10544913649934]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Text Simplification by Tagging [21.952293614293392]
シーケンスタギングに基づくシンプルで効率的なテキスト簡略化システムであるTSTを提案する。
本システムでは,既存のシステム上でのトレーニングや推論において,簡易なデータ拡張と微調整を行う。
現在のテキスト簡略化システムよりも11倍以上高速な推論速度を実現します。
論文 参考訳(メタデータ) (2021-03-08T20:57:55Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。