論文の概要: LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
- arxiv url: http://arxiv.org/abs/2407.14057v1
- Date: Fri, 19 Jul 2024 06:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:33:40.794928
- Title: LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
- Title(参考訳): LazyLLM: 効率的なLLM推論のための動的トーケンプルーニング
- Authors: Qichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi,
- Abstract要約: LazyLLMは次のトークン予測に重要なトークンのKVを選択的に計算する手法である。
LLama 2 7Bモデルのプレフィルステージを2.34倍の精度で高速化する。
- 参考スコア(独自算出の注目度): 30.722379261991563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inference of transformer-based large language models consists of two sequential stages: 1) a prefilling stage to compute the KV cache of prompts and generate the first token, and 2) a decoding stage to generate subsequent tokens. For long prompts, the KV cache must be computed for all tokens during the prefilling stage, which can significantly increase the time needed to generate the first token. Consequently, the prefilling stage may become a bottleneck in the generation process. An open question remains whether all prompt tokens are essential for generating the first token. To answer this, we introduce a novel method, LazyLLM, that selectively computes the KV for tokens important for the next token prediction in both the prefilling and decoding stages. Contrary to static pruning approaches that prune the prompt at once, LazyLLM allows language models to dynamically select different subsets of tokens from the context in different generation steps, even though they might be pruned in previous steps. Extensive experiments on standard datasets across various tasks demonstrate that LazyLLM is a generic method that can be seamlessly integrated with existing language models to significantly accelerate the generation without fine-tuning. For instance, in the multi-document question-answering task, LazyLLM accelerates the prefilling stage of the LLama 2 7B model by 2.34x while maintaining accuracy.
- Abstract(参考訳): 変圧器に基づく大言語モデルの推論は、2つの逐次段階から構成される。
1)プロンプトのKVキャッシュを計算し、最初のトークンを生成するための準備段階
2) その後のトークンを生成するデコードステージ。
長時間のプロンプトでは、KVキャッシュはプリフィル段階ですべてのトークンに対して計算されなければならない。
これにより、前処理段階が生成過程のボトルネックとなる可能性がある。
オープンな疑問は、最初のトークンを生成するためにすべてのプロンプトトークンが必須かどうかである。
そこで本研究では,前処理と復号処理の両方において,次のトークン予測に重要なトークンのKVを選択的に計算する新しい手法であるLazyLLMを提案する。
LazyLLMは、プロンプトを一度にプルーンする静的プルーニングアプローチとは対照的に、以前のステップでプルーニングされたとしても、異なる生成ステップでコンテキストから異なるトークンのサブセットを動的に選択することができる。
さまざまなタスクにわたる標準データセットに関する大規模な実験により、LazyLLMは既存の言語モデルとシームレスに統合され、微調整なしで生成を大幅に高速化できる汎用的な方法であることが示された。
例えば、多文書質問回答タスクでは、LazyLLMは精度を維持しながらLLama 2 7Bモデルのプリフィルステージを2.34倍高速化する。
関連論文リスト
- Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Empowering Character-level Text Infilling by Eliminating Sub-Tokens [34.37743927032878]
FIM-SEは"Fill-In-the-Middle"の略で、開始文字と終了文字の制約がある。
本稿では,FIM-SEについて紹介する。
論文 参考訳(メタデータ) (2024-05-27T12:21:48Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [68.68025991850115]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models [48.592730159983276]
Prefillingは、自己回帰生成前のプロンプトにおける入力トークンのキー値キャッシュの計算である。
より長い入力プロンプト長の場合、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。
本稿では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。
論文 参考訳(メタデータ) (2024-04-15T07:49:10Z) - PaSS: Parallel Speculative Sampling [29.23180061749074]
言語モデルのサイズを数千億のパラメータに拡大すると、幅広いタスクにおいて素晴らしいパフォーマンスが得られます。
生成時にこれらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスを必要とし、メモリからパラメータの完全なセットを読み取る。
有望なパフォーマンス(最大30%$スピードアップ)を示しますが、追加のパラメータは$O(d_emb)$でしかありません。
論文 参考訳(メタデータ) (2023-11-22T18:37:27Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。