論文の概要: You Need an Encoder for Native Position-Independent Caching
- arxiv url: http://arxiv.org/abs/2602.01519v1
- Date: Mon, 02 Feb 2026 01:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.831046
- Title: You Need an Encoder for Native Position-Independent Caching
- Title(参考訳): ネイティブの位置に依存しないキャッシングのためのエンコーダが必要です
- Authors: Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen,
- Abstract要約: LLM(Large Language Models)のキーバリューキャッシュはプレフィックスベースである。
位置独立キャッシング(PIC)は、位置制約なしでKVの再利用を可能にするために提案されている。
我々は、エンコーダを一般的なデコーダのみのLLMに再導入し、PICをサポートするように明示的にトレーニングすることで、ネイティブなPICを提案する。
さらに,既存の推論フレームワークとシームレスに統合可能なPIC対応キャッシングシステムであるCOMBを開発した。
- 参考スコア(独自算出の注目度): 28.778240400537175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3$\times$ with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.
- Abstract(参考訳): LLM(Large Language Models)のキーバリュー(KV)キャッシュはプレフィックスベースであり、任意の順序で検索されるコンテキストを処理するのに非常に非効率である。
位置独立キャッシング (PIC) は位置制約なしでKVの再利用を可能にするために提案されているが、既存の手法では精度が大幅に低下し、実用化が制限されている。
この問題に対処するために、エンコーダを一般的なデコーダのみのLLMに再導入し、PICをサポートするように明示的にトレーニングすることで、ネイティブなPICを提案する。
さらに,既存の推論フレームワークとシームレスに統合可能なPIC対応キャッシングシステムであるCOMBを開発した。
実験結果から,COMBはTTFT(Time-to-First-Token)を51-94%削減し,スループットを3$\times$に向上することがわかった。
さらに、DeepSeek-V2-Lite-Chatを使用する場合の品質改善は、COMBを他のタイプのデコーダのみのLCMに適用可能であることを示す。
私たちのコードはhttps://github.com/shijuzhao/Comb.comから入手可能です。
関連論文リスト
- Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking [8.189266513060621]
マルチモーダル検索はまだCLIPのような埋め込みベースのモデルに頼っている。
共同エンコーダのリランカが標準であるテキスト検索とは異なり、同等の視覚言語リランカはほとんど欠落している。
本稿では,視覚トークンをオフラインでプリコンプリートし,軽量アテンションベースのアダプタで圧縮する,効率的な識別関節であるEDJEを紹介する。
論文 参考訳(メタデータ) (2025-10-08T09:46:09Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving [28.024240207609854]
本稿では,マルチモーダル情報管理におけるより効果的な手法として,位置独立キャッシングを提案する。
我々は,システムレベルの課題とアルゴリズムレベルの課題に対処するため,MPICというキャッシングシステムの設計と実装を行った。
論文 参考訳(メタデータ) (2025-02-04T03:13:09Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition [9.803556181225193]
エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。
しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。
キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
論文 参考訳(メタデータ) (2023-10-23T13:55:49Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。