論文の概要: An Efficient Inference Framework for Early-exit Large Language Models
- arxiv url: http://arxiv.org/abs/2407.20272v1
- Date: Thu, 25 Jul 2024 07:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 19:18:14.357531
- Title: An Efficient Inference Framework for Early-exit Large Language Models
- Title(参考訳): 早期の大規模言語モデルのための効率的な推論フレームワーク
- Authors: Ruijie Miao, Yihan Yan, Xinshuo Yao, Tong Yang,
- Abstract要約: 初期出力モデルでは、静止層をスキップすることでLCMの推論効率を向上し、自信があれば出力トークンを直接生成する。
早期終了モデルを考慮に入れたLLM推論フレームワークの作業はない。
我々は,(1)反復レベルの粒度のバッチ推論,(2)KVキャッシュ管理という,早期終了モデルの効率的な推論フレームワークを構築する上での2つの課題を解決する。
- 参考スコア(独自算出の注目度): 5.048467183620882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building efficient inference framework has gained increasing interests for research community. Early-exit models, a variant of LLMs, improves the inference efficiency of LLMs by skipping rest layers and directly generate output tokens when they are confident enough. However, there is no work of LLM inference framework that takes early-exit models into consideration. This is non-trivial as prior art on LLM inference cannot be directly applied to early-exit models. In this work, we solves two key challenges in building efficient inference framework for early-exit models: (1) batch inference at iteration-level granularity; and (2) KV cache management. For the former, we propose to process the batch until all sequences surpass the early-exit confidence threshold. For the latter, we propose to fill the KV cache of rest layers before the iteration terminates. Our evaluation shows that, compared with the original vLLM operating at full layers, our solution achieves up to 1.25x speed up.
- Abstract(参考訳): 効率的な推論フレームワークの構築は、研究コミュニティへの関心が高まっている。
LLMの変種であるアーリーエグジットモデルは、レスト層をスキップすることでLCMの推論効率を改善し、十分に自信のあるときに出力トークンを直接生成する。
しかし、初期のモデルを考慮に入れたLLM推論フレームワークの開発は行われていない。
LLM推論における先行技術は、初期出力モデルに直接適用できないため、これは自明ではない。
本研究では,(1)反復レベルの粒度のバッチ推論,(2)KVキャッシュ管理という,早期終了モデルの効率的な推論フレームワークを構築する上での2つの課題を解決する。
前者に対しては、全てのシーケンスが早期終了信頼閾値を超えるまでバッチを処理することを提案する。
後者では、繰り返しが終了する前に、残りのレイヤのKVキャッシュを埋めることを提案する。
評価の結果,従来のvLLMが全層で動作するのに対し,ソリューションは最大1.25倍の高速化を実現していることがわかった。
関連論文リスト
- EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models [25.058673320372677]
大規模言語モデル(LLM)は法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。
本研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前学習を提案する。
我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
論文 参考訳(メタデータ) (2025-02-10T16:51:03Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Dynamic Vocabulary Pruning in Early-Exit LLMs [0.11983702508388193]
大きな言語モデル(LLM)のサイズが大きくなると、パフォーマンスが向上することが示されている。
これは、より遅く、より高価な推論のコストが伴う。
本稿では,各トークンに対して,テスト時に語彙を動的にプルーニングすることを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:52:31Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Efficient Prompt Caching via Embedding Similarity [26.456212783693545]
類似度を埋め込んだ単ラウンド質問問合せタスクにおけるプロンプトキャッシングの予測精度に着目した。
そこで本研究では, 蒸留法を用いて既存の埋込物を微調整し, より良い予測を行う方法を提案する。
また、トレーニングされたモデルが従来の埋め込みモデルよりもキャッシング効率が良いことを示すシミュレーションも行います。
論文 参考訳(メタデータ) (2024-02-02T06:34:11Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。