論文の概要: HAMburger: Accelerating LLM Inference via Token Smashing
- arxiv url: http://arxiv.org/abs/2505.20438v1
- Date: Mon, 26 May 2025 18:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.247367
- Title: HAMburger: Accelerating LLM Inference via Token Smashing
- Title(参考訳): HAMburger:Token SmashingによるLCM推論の高速化
- Authors: Jingyu Liu, Ce Zhang,
- Abstract要約: HAMburgerは階層的な自己回帰モデルであり、大規模言語モデル推論におけるリソース割り当てを再定義する。
HAMburgerはKVキャッシュの計算を最大2$times$に減らし、最大2$times$TPSを実現する。
本手法では,ハードウェアに依存しない設計で計算効率とメモリ効率の両方を必要とする,極めて困難な推論方式を探索する。
- 参考スコア(独自算出の注目度): 11.730038057167622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for efficient Large Language Model (LLM) inference requires a holistic optimization on algorithms, systems, and hardware. However, very few works have fundamentally changed the generation pattern: each token needs one forward pass and one KV cache. This can be sub-optimal because we found that LLMs are extremely capable of self-identifying the exact dose of information that a single KV cache can store, and many tokens can be generated confidently without global context. Based on this insight, we introduce HAMburger, a Hierarchically Auto-regressive Model that redefines resource allocation in LLMs by moving beyond uniform computation and storage per token during inference. Stacking a compositional embedder and a micro-step decoder in between a base LLM, HAMburger smashes multiple tokens into a single KV and generates several tokens per step. Additionally, HAMburger functions as a speculative decoding framework where it can blindly trust self-drafted tokens. As a result, HAMburger shifts the growth of KV cache and forward FLOPs from linear to sub-linear with respect to output length, and adjusts its inference speed based on query perplexity and output structure. Extensive evaluations show that HAMburger reduces the KV cache computation by up to 2$\times$ and achieves up to 2$\times$ TPS, while maintaining quality in both short- and long-context tasks. Our method explores an extremely challenging inference regime that requires both computation- and memory-efficiency with a hardware-agnostic design.
- Abstract(参考訳): 効率的なLarge Language Model (LLM) 推論への需要が高まっているため、アルゴリズム、システム、ハードウェアの全体的な最適化が必要である。
それぞれのトークンには1つのフォワードパスと1つのKVキャッシュが必要です。
LLMは単一のKVキャッシュが格納できる情報の正確な量を自己識別する能力が極めて高いため,グローバルなコンテキストなしに多くのトークンを確実に生成できるため,これは準最適である。
この知見に基づいて,LLMにおける資源割り当てを再定義する階層的自己回帰モデルであるHAMburgerを紹介した。
合成埋め込み器とマイクロステップデコーダをベースLLMの間に重ねると、HAMburgerは複数のトークンを単一のKVに分割し、ステップ毎に複数のトークンを生成する。
さらに、HAMburgerは投機的デコードフレームワークとして機能し、セルフドラフトトークンを盲目的に信頼することができる。
その結果、HAMburgerは、KVキャッシュとフォワードFLOPの成長を出力長に対して線形からサブ線形にシフトさせ、クエリの難易度と出力構造に基づいて推論速度を調整する。
大規模な評価では、HAMburgerはKVキャッシュの計算を最大2$\times$、最大2$\times$TPSまで削減し、短文タスクと長文タスクの両方の品質を維持している。
本手法では,ハードウェアに依存しない設計で計算効率とメモリ効率の両方を必要とする,極めて困難な推論方式を探索する。
関連論文リスト
- ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [24.04649159686283]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車なしの手法を30%上回り、広く認められた訓練方法さえも25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。