論文の概要: TableCache: Primary Foreign Key Guided KV Cache Precomputation for Low Latency Text-to-SQL
- arxiv url: http://arxiv.org/abs/2601.08743v1
- Date: Tue, 13 Jan 2026 17:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.306537
- Title: TableCache: Primary Foreign Key Guided KV Cache Precomputation for Low Latency Text-to-SQL
- Title(参考訳): TableCache: 低レイテンシテキストからSQLへの一次外部キーガイドKVキャッシュ前処理
- Authors: Jinbo Su, Yuxuan Hu, Cuiping Li, Hong Chen, Jia Li, Lintao Ma, Jing Zhang,
- Abstract要約: そこで我々は,KVキャッシュのオフライン化によるテーブル表現の事前計算を提案し,必要な表現をオンラインに問い合わせる。
我々のアプローチの重要な側面は、テーブル間の主要な外部キー関係を維持しながら、テーブルキャッシュの計算である。
- 参考スコア(独自算出の注目度): 26.22021341849791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Text-to-SQL tasks, existing LLM-based methods often include extensive database schemas in prompts, leading to long context lengths and increased prefilling latency. While user queries typically focus on recurrent table sets-offering an opportunity for KV cache sharing across queries-current inference engines, such as SGLang and vLLM, generate redundant prefix cache copies when processing user queries with varying table orders. To address this inefficiency, we propose precomputing table representations as KV caches offline and querying the required ones online. A key aspect of our approach is the computation of table caches while preserving primary foreign key relationships between tables. Additionally, we construct a Table Trie structure to facilitate efficient KV cache lookups during inference. To enhance cache performance, we introduce a cache management system with a query reranking strategy to improve cache hit rates and a computation loading pipeline for parallelizing model inference and cache loading. Experimental results show that our proposed TableCache achieves up to a 3.62x speedup in Time to First Token (TTFT) with negligible performance degradation.
- Abstract(参考訳): Text-to-SQLタスクでは、既存のLCMベースのメソッドはプロンプトに広範囲のデータベーススキーマを含むことが多く、長いコンテキストの長さと準備待ち時間の増加につながる。
ユーザクエリは通常、リカレントテーブルセットにフォーカスするが、SGLangやvLLMといったクエリカレント推論エンジン間でKVキャッシュを共有する機会は、テーブルオーダーの異なるユーザクエリを処理する際に、冗長なプレフィックスキャッシュコピーを生成する。
この非効率性に対処するため、KVキャッシュをオフラインにし、必要なものをオンラインでクエリするテーブル表現の事前計算を提案する。
我々のアプローチの重要な側面は、テーブル間の主要な外部キー関係を維持しながら、テーブルキャッシュの計算である。
さらに、推論時に効率的なKVキャッシュ検索を容易にするためのテーブルトライ構造を構築した。
キャッシュ性能を向上させるために、キャッシュヒット率を改善するクエリ再ランク戦略と、モデル推論とキャッシュローディングを並列化するための計算負荷パイプラインを導入する。
実験結果から,提案したTableCacheはTTFT(Time to First Token)の最大3.62倍の高速化を実現し,性能劣化を抑えることができた。
関連論文リスト
- TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving [12.80179556886128]
セグメントレベルのプレフィックス・キャッシュ・プールであるTokenLakeを提案する。
キャッシュインターフェースを使用して、リクエストのクエリテンソル、プレフィックス、キャッシュ対応操作を公開します。
TokenLakeはスループットを最大2.6$times$と2.0$times$に改善し、ヒット率を2.0$times$と2.1$times$に向上させることができる。
論文 参考訳(メタデータ) (2025-08-24T05:45:16Z) - InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。
命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。
LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。