Fugu-MT 論文翻訳(概要): Training-Free Exponential Context Extension via Cascading KV Cache

論文の概要: Training-Free Exponential Context Extension via Cascading KV Cache

arxiv url: http://arxiv.org/abs/2406.17808v2
Date: Wed, 30 Oct 2024 03:31:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.139408
Title: Training-Free Exponential Context Extension via Cascading KV Cache
Title（参考訳）: カスケーディングKVキャッシュによる学習自由指数文脈拡張
Authors: Jeffrey Willette, Heejun Lee, Youngwan Lee, Myeongjae Jeon, Sung Ju Hwang,
Abstract要約: カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
参考スコア（独自算出の注目度）: 49.608367376911694
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The transformer's context window is vital for tasks such as few-shot learning and conditional generation as it preserves previous tokens for active memory. However, as the context lengths increase, the computational costs grow quadratically, hindering the deployment of large language models (LLMs) in real-world, long sequence scenarios. Although some recent key-value caching (KV Cache) methods offer linear inference complexity, they naively manage the stored context, prematurely evicting tokens and losing valuable information. Moreover, they lack an optimized prefill/prompt stage strategy, resulting in higher latency than even quadratic attention for realistic context sizes. In response, we introduce a novel mechanism that leverages cascading sub-cache buffers to selectively retain the most relevant tokens, enabling the model to maintain longer context histories without increasing the cache size. Our approach outperforms linear caching baselines across key benchmarks, including streaming perplexity, question answering, book summarization, and passkey retrieval, where it retains better retrieval accuracy at 1M tokens after four doublings of the cache size of 65K. Additionally, our method reduces prefill stage latency by a factor of 6.8 when compared to flash attention on 1M tokens. These innovations not only enhance the computational efficiency of LLMs but also pave the way for their effective deployment in resource-constrained environments, enabling large-scale, real-time applications with significantly reduced latency.
Abstract（参考訳）: 変換器のコンテキストウィンドウは、以前のアクティブメモリのトークンを保存するため、少数ショット学習や条件生成のようなタスクに不可欠である。しかし、文脈の長さが長くなるにつれて、計算コストは2次的に増加し、大規模言語モデル(LLM)が現実の長いシーケンスシナリオに展開するのを妨げている。最近のキーバリューキャッシュ(KV Cache)メソッドは、線形推論の複雑さを提供するが、保存されたコンテキストを鼻で管理し、トークンを早期に削除し、貴重な情報を失う。さらに、最適化されたプリフィル/プロンプトステージ戦略が欠如しており、現実的なコンテキストサイズに対する2次的な注意よりもレイテンシが高い。そこで本研究では,カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持し,キャッシュサイズを増大させることなく,より長いコンテキスト履歴を維持する機構を提案する。提案手法は,ストリームパープレキシティ,質問応答,書籍要約,パスキー検索など,キーベンチマークにおける線形キャッシュベースラインよりも優れており,キャッシュサイズが65Kの4倍になった後,100万トークンでの検索精度が向上する。さらに,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。これらのイノベーションは、LLMの計算効率を向上するだけでなく、リソース制約のある環境に効果的に展開するための道を開いた。

関連論文リスト

Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文参考訳（メタデータ） (2025-12-03T00:20:35Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
CacheFocus: Dynamic Cache Re-Positioning for Efficient Retrieval-Augmented Generation [6.544043376474944]
LLM(Large Language Models)は、入力長と計算コストの制限により、様々な言語タスクを排他的に拡張する。既存のアプローチであるtextemdashは、これらの問題を部分的に緩和するが、しばしば追加のトレーニングを必要とするか、より長い入力でパフォーマンス劣化に悩まされる。 textbftextitCacheFocusは、長さの正規化を強化し、さらなるトレーニングを行わずに推論遅延を低減する方法である。
論文参考訳（メタデータ） (2025-02-16T12:33:16Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
キーバリューキャッシュ(KVCache)は、大規模言語モデル(LLM)において重要なコンポーネントである現在の手法では、この問題に対処するためにLLMにおける自己注意に適したキーと値を選択的に決定する。本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
論文参考訳（メタデータ） (2024-07-01T13:05:42Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文参考訳（メタデータ） (2024-02-08T22:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。