論文の概要: LLMCad: Fast and Scalable On-device Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2309.04255v1
- Date: Fri, 8 Sep 2023 10:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:45:16.604725
- Title: LLMCad: Fast and Scalable On-device Large Language Model Inference
- Title(参考訳): LLMCad: 高速でスケーラブルなデバイス上の大規模言語モデル推論
- Authors: Daliang Xu, Wangsong Yin, Xin Jin, Ying Zhang, Shiyun Wei, Mengwei Xu,
and Xuanzhe Liu
- Abstract要約: テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
- 参考スコア(独自算出の注目度): 11.103824752113148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative tasks, such as text generation and question answering, hold a
crucial position in the realm of mobile applications. Due to their sensitivity
to privacy concerns, there is a growing demand for their execution directly on
mobile devices. Currently, the execution of these generative tasks heavily
depends on Large Language Models (LLMs). Nevertheless, the limited memory
capacity of these devices presents a formidable challenge to the scalability of
such models.
In our research, we introduce LLMCad, an innovative on-device inference
engine specifically designed for efficient generative Natural Language
Processing (NLP) tasks. The core idea behind LLMCad revolves around model
collaboration: a compact LLM, residing in memory, takes charge of generating
the most straightforward tokens, while a high-precision LLM steps in to
validate these tokens and rectify any identified errors. LLMCad incorporates
three novel techniques: (1) Instead of generating candidate tokens in a
sequential manner, LLMCad employs the smaller LLM to construct a token tree,
encompassing a wider range of plausible token pathways. Subsequently, the
larger LLM can efficiently validate all of these pathways simultaneously. (2)
It employs a self-adjusting fallback strategy, swiftly initiating the
verification process whenever the smaller LLM generates an erroneous token. (3)
To ensure a continuous flow of token generation, LLMCad speculatively generates
tokens during the verification process by implementing a compute-IO pipeline.
Through an extensive series of experiments, LLMCad showcases an impressive
token generation speed, achieving rates up to 9.3x faster than existing
inference engines.
- Abstract(参考訳): テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの分野で重要な位置を占めています。
プライバシの懸念に対する感受性のため、モバイルデバイス上で直接実行することの需要が高まっている。
現在、これらの生成タスクの実行はLarge Language Models (LLM) に大きく依存している。
それでも、これらのデバイスのメモリ容量の制限は、そのようなモデルのスケーラビリティに深刻な課題をもたらす。
本研究では,効率的な生成自然言語処理(NLP)タスク用に設計された,革新的なオンデバイス推論エンジンであるLLMCadを紹介する。
LLMCadの基本的な考え方は、モデルコラボレーションを中心に展開されている。メモリ上に存在するコンパクトなLLMは、最も単純なトークンの生成を担い、高精度なLLMは、これらのトークンの検証と特定されたエラーの修正を行う。
llmcadには3つの新しいテクニックが組み込まれている: (1) 候補トークンを逐次生成するのではなく、より小さなllmを使用してトークンツリーを構築する。
その後、より大きなLSMはこれら全ての経路を同時に有効に検証することができる。
2) 自己調整型フォールバック戦略を採用し, 小さなLDMが誤ってトークンを生成すると, 検証処理を迅速に開始する。
(3) トークン生成の連続的なフローを確保するため,LLMCad は計算-IOパイプラインを実装することにより,検証プロセス中にトークンを投機的に生成する。
LLMCadは様々な実験を通じて、既存の推論エンジンよりも最大9.3倍高速なトークン生成速度を示す。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。