Fugu-MT 論文翻訳(概要): Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

論文の概要: Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

arxiv url: http://arxiv.org/abs/2312.12728v2
Date: Thu, 4 Jan 2024 06:33:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 16:57:35.335369
Title: Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy
Title（参考訳）: Lookahead: ロスレス生成精度を持つ大規模言語モデルのための推論高速化フレームワーク
Authors: Yao Zhao, Zhitian Xie, Chenyi Zhuang, Jinjie Gu
Abstract要約: 本稿では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現した。我々は,複数のブランチを同時に生成できるtextitTrie-based Retrieval (TR) プロセスを提案する。各ブランチに対して、最も長い正しいサブシーケンスを最終出力として識別するために、textitVerification and Accept(VA)プロセスが実行される。
参考スコア（独自算出の注目度）: 42.27171890669346
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As Large Language Models (LLMs) have made significant advancements across various tasks, such as question answering, translation, text summarization, and dialogue systems, the need for accuracy in information becomes crucial, especially for serious financial products serving billions of users like Alipay. To address this, Alipay has developed a Retrieval-Augmented Generation (RAG) system that grounds LLMs on the most accurate and up-to-date information. However, for a real-world product serving millions of users, the inference speed of LLMs becomes a critical factor compared to a mere experimental model. Hence, this paper presents a generic framework for accelerating the inference process, resulting in a substantial increase in speed and cost reduction for our RAG system, with lossless generation accuracy. In the traditional inference process, each token is generated sequentially by the LLM, leading to a time consumption proportional to the number of generated tokens. To enhance this process, our framework, named \textit{lookahead}, introduces a \textit{multi-branch} strategy. Instead of generating a single token at a time, we propose a \textit{Trie-based Retrieval} (TR) process that enables the generation of multiple branches simultaneously, each of which is a sequence of tokens. Subsequently, for each branch, a \textit{Verification and Accept} (VA) process is performed to identify the longest correct sub-sequence as the final output. Our strategy offers two distinct advantages: (1) it guarantees absolute correctness of the output, avoiding any approximation algorithms, and (2) the worst-case performance of our approach is equivalent to the conventional process. We conduct extensive experiments to demonstrate the significant improvements achieved by applying our inference acceleration framework. Code is avaliable: https://github.com/alipay/PainlessInferenceAcceleration.
Abstract（参考訳）: 大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクにおいて大きな進歩を遂げているため、情報処理の正確性の必要性は、特にAlipayのような数十億のユーザーを対象とする深刻な金融製品にとって重要である。これを解決するために、Alipayは、最も正確かつ最新の情報に基づいてLSMを基盤とする検索・拡張生成システム(RAG)を開発した。しかし, 数百万人のユーザを対象とする実世界の製品では, LLMの推論速度は, 単なる実験モデルと比較して重要な要因となる。そこで,本論文では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現し,生成精度を損なうことなく実現した。従来の推論プロセスでは、各トークンはLCMによって順次生成され、生成されたトークンの数に比例する時間消費につながる。このプロセスを強化するために、我々のフレームワークは \textit{lookahead} と呼ばれ、 \textit{multi-branch} 戦略を導入しました。一つのトークンを一度に生成する代わりに、複数のブランチを同時に生成できる \textit{Trie-based Retrieval} (TR) プロセスを提案し、それぞれがトークンのシーケンスである。その後、各ブランチに対して \textit{Verification and Accept} (VA) プロセスを実行し、最も長い正しいサブシーケンスを最終出力として識別する。提案手法は,(1) 出力の絶対正当性を保証する,(2) 近似アルゴリズムの回避,(2) アプローチの最悪の性能は従来のプロセスと同等である,という2つの異なる利点を提供する。我々は、推論加速フレームワークの適用によって達成された重要な改善を実証するために、広範な実験を行う。コードは無効である。 https://github.com/alipay/PainlessInferenceAcceleration。

関連論文リスト

S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models [38.784951111677856]
大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。その自己回帰的な性質は、相当なレイテンシ推論をもたらし、リアルタイムアプリケーションに課題を提起する。マルチヘッドドラフトを利用して投機的サンプリングを拡張するSyntactic and Semantic Coherenceフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-17T03:38:19Z)
SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.91607650966469]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。 Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文参考訳（メタデータ） (2025-06-11T04:55:54Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。 textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文参考訳（メタデータ） (2024-08-25T01:45:53Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文参考訳（メタデータ） (2023-05-25T07:39:41Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。