Fugu-MT 論文翻訳(概要): Marconi: Prefix Caching for the Era of Hybrid LLMs

論文の概要: Marconi: Prefix Caching for the Era of Hybrid LLMs

arxiv url: http://arxiv.org/abs/2411.19379v1
Date: Thu, 28 Nov 2024 21:10:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.881664
Title: Marconi: Prefix Caching for the Era of Hybrid LLMs
Title（参考訳）: Marconi: ハイブリッドLLM時代のプリフィックスキャッシング
Authors: Rui Pan, Zhuang Wang, Zhen Jia, Can Karakus, Luca Zancato, Tri Dao, Ravi Netravali, Yida Wang,
Abstract要約: 本稿では,Hybrid LLMを用いた効率的なプレフィックスキャッシングをサポートする最初のシステムであるMarconiを紹介する。多様なワークロードとハイブリッドモデルにまたがって、Marconiは最大34.4$times$高いトークンヒットレートを達成した。
参考スコア（独自算出の注目度）: 26.260418040965327
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Hybrid models that combine the language modeling capabilities of Attention layers with the efficiency of Recurrent layers (e.g., State Space Models) have gained traction in practically supporting long contexts in Large Language Model serving. Yet, the unique properties of these models complicate the usage of complementary efficiency optimizations such as prefix caching that skip redundant computations across requests. Most notably, their use of in-place state updates for recurrent layers precludes rolling back cache entries for partial sequence overlaps, and instead mandates only exact-match cache hits; the effect is a deluge of (large) cache entries per sequence, most of which yield minimal reuse opportunities. We present Marconi, the first system that supports efficient prefix caching with Hybrid LLMs. Key to Marconi are its novel admission and eviction policies that more judiciously assess potential cache entries based not only on recency, but also on (1) forecasts of their reuse likelihood across a taxonomy of different hit scenarios, and (2) the compute savings that hits deliver relative to memory footprints. Across diverse workloads and Hybrid models, Marconi achieves up to 34.4$\times$ higher token hit rates (71.1% or 617 ms lower TTFT) compared to state-of-the-art prefix caching systems.
Abstract（参考訳）: 注意層とリカレント層(例えば、ステートスペースモデル)の効率を併用したハイブリッドモデルは、大規模言語モデルサービスにおける長いコンテキストを実際にサポートすることで、注目を集めています。しかし、これらのモデルのユニークな特性は、リクエスト間の冗長な計算をスキップするプレフィックスキャッシングのような補完的な効率最適化の使用を複雑にしている。最も注目すべきは、リカレントレイヤのインプレース状態更新を使用することで、部分的なシーケンスオーバーラップに対するロールバックキャッシュエントリを回避でき、代わりに正確なマッチキャッシュヒットのみを指定できることだ。本稿では,Hybrid LLMを用いた効率的なプレフィックスキャッシングをサポートする最初のシステムであるMarconiを紹介する。 Marconiの鍵となるのは、リレーレンシーだけでなく、(1)異なるヒットシナリオの分類にまたがる再利用可能性の予測、(2)メモリフットプリントに比例してヒットする計算貯蓄の予測に基づいて、キャッシュエントリの可能性をより公正に評価する、新しい入場・退避ポリシーである。多様なワークロードとハイブリッドモデル全体で、Marconiは最先端のプレフィックスキャッシュシステムと比較して34.4$\times$高いトークンヒットレート(71.1%または617ms低いTTFT)を達成する。

関連論文リスト

A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
CacheMamba: Popularity Prediction for Mobile Edge Caching Networks via Selective State Spaces [6.895209729810318]
モバイルエッジキャッシング(MEC)は、エッジサーバ上で頻繁に要求されるコンテンツを動的にキャッシュすることによって、データ集約型サービスのレイテンシを軽減する上で、重要な役割を果たす。本稿では,意図したファイルの時系列要求データを活用することで,MECにおける人気予測の問題を検討する。本稿では,状態空間モデル(SSM)に基づくアーキテクチャであるMambaを用いて,要求される確率が最も高いトップKファイルを識別するCacheMambaモデルを提案する。
論文参考訳（メタデータ） (2025-02-09T05:57:59Z)
Expansion Span: Combining Fading Memory and Retrieval in Hybrid State Space Models [59.607021334350385]
ハイブリッドアーキテクチャはステートスペースレイヤとアテンションを組み合わせたものだが、遠い過去を思い出すことはできない。本研究では,過去から任意の距離から取得したトークンのアテンションコンテキストの一部を「保存」することにより,ハイブリッド状態のメモリ幅を拡大する手法について述べる。また,SE-Attnにより,事前学習用モデルよりも最大8倍長のトークン列上で,事前学習型ハイブリッドモデルを効率的に適用できることを示す。
論文参考訳（メタデータ） (2024-12-17T20:55:42Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks [36.39118138582416]
次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。エッジサーバにモデルをキャッシュすることで、モバイルネットワークは、低レイテンシでエンドユーザにモデルを配信することができる。我々はパラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置方式を開発する。
論文参考訳（メタデータ） (2024-05-07T04:08:49Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。