論文の概要: Lookahead: An Inference Acceleration Framework for Large Language Model
with Lossless Generation Accuracy
- arxiv url: http://arxiv.org/abs/2312.12728v2
- Date: Thu, 4 Jan 2024 06:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:57:35.335369
- Title: Lookahead: An Inference Acceleration Framework for Large Language Model
with Lossless Generation Accuracy
- Title(参考訳): Lookahead: ロスレス生成精度を持つ大規模言語モデルのための推論高速化フレームワーク
- Authors: Yao Zhao, Zhitian Xie, Chenyi Zhuang, Jinjie Gu
- Abstract要約: 本稿では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現した。
我々は,複数のブランチを同時に生成できるtextitTrie-based Retrieval (TR) プロセスを提案する。
各ブランチに対して、最も長い正しいサブシーケンスを最終出力として識別するために、textitVerification and Accept(VA)プロセスが実行される。
- 参考スコア(独自算出の注目度): 42.27171890669346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) have made significant advancements across
various tasks, such as question answering, translation, text summarization, and
dialogue systems, the need for accuracy in information becomes crucial,
especially for serious financial products serving billions of users like
Alipay. To address this, Alipay has developed a Retrieval-Augmented Generation
(RAG) system that grounds LLMs on the most accurate and up-to-date information.
However, for a real-world product serving millions of users, the inference
speed of LLMs becomes a critical factor compared to a mere experimental model.
Hence, this paper presents a generic framework for accelerating the inference
process, resulting in a substantial increase in speed and cost reduction for
our RAG system, with lossless generation accuracy. In the traditional inference
process, each token is generated sequentially by the LLM, leading to a time
consumption proportional to the number of generated tokens. To enhance this
process, our framework, named \textit{lookahead}, introduces a
\textit{multi-branch} strategy. Instead of generating a single token at a time,
we propose a \textit{Trie-based Retrieval} (TR) process that enables the
generation of multiple branches simultaneously, each of which is a sequence of
tokens. Subsequently, for each branch, a \textit{Verification and Accept} (VA)
process is performed to identify the longest correct sub-sequence as the final
output. Our strategy offers two distinct advantages: (1) it guarantees absolute
correctness of the output, avoiding any approximation algorithms, and (2) the
worst-case performance of our approach is equivalent to the conventional
process. We conduct extensive experiments to demonstrate the significant
improvements achieved by applying our inference acceleration framework. Code is
avaliable: https://github.com/alipay/PainlessInferenceAcceleration.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクにおいて大きな進歩を遂げているため、情報処理の正確性の必要性は、特にAlipayのような数十億のユーザーを対象とする深刻な金融製品にとって重要である。
これを解決するために、Alipayは、最も正確かつ最新の情報に基づいてLSMを基盤とする検索・拡張生成システム(RAG)を開発した。
しかし, 数百万人のユーザを対象とする実世界の製品では, LLMの推論速度は, 単なる実験モデルと比較して重要な要因となる。
そこで,本論文では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現し,生成精度を損なうことなく実現した。
従来の推論プロセスでは、各トークンはLCMによって順次生成され、生成されたトークンの数に比例する時間消費につながる。
このプロセスを強化するために、我々のフレームワークは \textit{lookahead} と呼ばれ、 \textit{multi-branch} 戦略を導入しました。
一つのトークンを一度に生成する代わりに、複数のブランチを同時に生成できる \textit{Trie-based Retrieval} (TR) プロセスを提案し、それぞれがトークンのシーケンスである。
その後、各ブランチに対して \textit{Verification and Accept} (VA) プロセスを実行し、最も長い正しいサブシーケンスを最終出力として識別する。
提案手法は,(1) 出力の絶対正当性を保証する,(2) 近似アルゴリズムの回避,(2) アプローチの最悪の性能は従来のプロセスと同等である,という2つの異なる利点を提供する。
我々は、推論加速フレームワークの適用によって達成された重要な改善を実証するために、広範な実験を行う。
コードは無効である。 https://github.com/alipay/PainlessInferenceAcceleration。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。