論文の概要: Cartridges at Scale: Training Modular KV Caches over Large Document Collections
- arxiv url: http://arxiv.org/abs/2606.04557v1
- Date: Wed, 03 Jun 2026 07:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.613237
- Title: Cartridges at Scale: Training Modular KV Caches over Large Document Collections
- Title(参考訳): 大規模なカートリッジ: 大規模なドキュメントコレクション上でのモジュール型KVキャッシュのトレーニング
- Authors: Momchil Hardalov, Gonzalo Iglesias, Adrià de Gispert,
- Abstract要約: 大規模言語モデルは長いコンテキストで推論できるが、数百万のトークンをプリフィルすることは無駄である。
カートリッジは文書コレクションを再利用可能なキー値(KV)キャッシュに蒸留することでこの問題に対処する。
動的イントラクタ混合によるスケーラブルなマルチカートリッジ学習のためのトレーニングフレームワークであるCartridges at Scale (CAS)を紹介した。
- 参考スコア(独自算出の注目度): 9.128537876797386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models can reason over long contexts, yet prefilling millions of tokens is wasteful as much of the content remains static across queries. Cartridges address this by distilling document collections into reusable key-value (KV) caches that eliminate prefilling while preserving accuracy. A critical limitation of this approach is that cartridges are monolithic and non-compositional: encoding an entire collection into a single KV block does not scale, and naively mixing cartridges trained in isolation collapses performance to near chance. We introduce Cartridges at Scale (CAS), a training framework for scalable multi-cartridge learning with dynamic distractor mixing and a memory-efficient budget manager that rotates hundreds of per-document cartridges between GPU and persistent storage. Our approach scales to collections exceeding a million tokens, improving over a monolithic cartridge by 10-31 points at comparable token budgets. Oracle cartridge accuracy falls within 2-6 points of full in-context learning even at high compression. When paired with retrieval for cartridge selection, CAS matches or exceeds conventional RAG accuracy while consuming 3-4x fewer prompt tokens.
- Abstract(参考訳): 大規模言語モデルは長いコンテキストで推論できるが、数百万のトークンをプリフィルすることは無駄である。
カートリッジは文書コレクションを再利用可能なキー値(KV)キャッシュに蒸留することでこの問題に対処する。
カートリッジはモノリシックで非構成的であり、コレクション全体を単一のKVブロックにエンコードすることはスケールしない。
ダイナミックなトラクタミキシングを備えたスケーラブルなマルチカートリッジ学習のためのトレーニングフレームワークであるCartridges at Scale (CAS)と,GPUと永続ストレージ間で数百のドキュメント単位のカートリッジを回転させるメモリ効率のよい予算マネージャを紹介した。
当社のアプローチでは,100万以上のトークンをコレクションにスケールアップし,モノリシックカートリッジを10~31ポイント,同等のトークン予算で改善しています。
Oracleのカートリッジの精度は、高い圧縮でもフルコンテキスト学習の2-6ポイント以内である。
カートリッジの選択のための検索と組み合わせると、CASは従来のRAGの精度と一致し、さらに3-4倍少ないプロンプトトークンを消費する。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。
KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。
我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文 参考訳(メタデータ) (2025-11-03T18:20:35Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Cartridges: Lightweight and general-purpose long context representations via self-study [33.99088544845831]
大規模な言語モデルは、大きなテキストコーパスに埋もれたクエリに答えるためにしばしば使用される。
本研究では,コーパスに関する合成会話を生成し,文脈蒸留目的のカートリッジを訓練する学習レシピを提案する。
自己学習で訓練したCartridgesは、ICLの機能を複製するが、提供コストはかなり安い。
論文 参考訳(メタデータ) (2025-06-06T17:48:23Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。