Fugu-MT 論文翻訳(概要): TableCache: Primary Foreign Key Guided KV Cache Precomputation for Low Latency Text-to-SQL

論文の概要: TableCache: Primary Foreign Key Guided KV Cache Precomputation for Low Latency Text-to-SQL

arxiv url: http://arxiv.org/abs/2601.08743v1
Date: Tue, 13 Jan 2026 17:20:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-14 18:27:19.306537
Title: TableCache: Primary Foreign Key Guided KV Cache Precomputation for Low Latency Text-to-SQL
Title（参考訳）: TableCache: 低レイテンシテキストからSQLへの一次外部キーガイドKVキャッシュ前処理
Authors: Jinbo Su, Yuxuan Hu, Cuiping Li, Hong Chen, Jia Li, Lintao Ma, Jing Zhang,
Abstract要約: そこで我々は,KVキャッシュのオフライン化によるテーブル表現の事前計算を提案し,必要な表現をオンラインに問い合わせる。我々のアプローチの重要な側面は、テーブル間の主要な外部キー関係を維持しながら、テーブルキャッシュの計算である。
参考スコア（独自算出の注目度）: 26.22021341849791
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In Text-to-SQL tasks, existing LLM-based methods often include extensive database schemas in prompts, leading to long context lengths and increased prefilling latency. While user queries typically focus on recurrent table sets-offering an opportunity for KV cache sharing across queries-current inference engines, such as SGLang and vLLM, generate redundant prefix cache copies when processing user queries with varying table orders. To address this inefficiency, we propose precomputing table representations as KV caches offline and querying the required ones online. A key aspect of our approach is the computation of table caches while preserving primary foreign key relationships between tables. Additionally, we construct a Table Trie structure to facilitate efficient KV cache lookups during inference. To enhance cache performance, we introduce a cache management system with a query reranking strategy to improve cache hit rates and a computation loading pipeline for parallelizing model inference and cache loading. Experimental results show that our proposed TableCache achieves up to a 3.62x speedup in Time to First Token (TTFT) with negligible performance degradation.
Abstract（参考訳）: Text-to-SQLタスクでは、既存のLCMベースのメソッドはプロンプトに広範囲のデータベーススキーマを含むことが多く、長いコンテキストの長さと準備待ち時間の増加につながる。ユーザクエリは通常、リカレントテーブルセットにフォーカスするが、SGLangやvLLMといったクエリカレント推論エンジン間でKVキャッシュを共有する機会は、テーブルオーダーの異なるユーザクエリを処理する際に、冗長なプレフィックスキャッシュコピーを生成する。この非効率性に対処するため、KVキャッシュをオフラインにし、必要なものをオンラインでクエリするテーブル表現の事前計算を提案する。我々のアプローチの重要な側面は、テーブル間の主要な外部キー関係を維持しながら、テーブルキャッシュの計算である。さらに、推論時に効率的なKVキャッシュ検索を容易にするためのテーブルトライ構造を構築した。キャッシュ性能を向上させるために、キャッシュヒット率を改善するクエリ再ランク戦略と、モデル推論とキャッシュローディングを並列化するための計算負荷パイプラインを導入する。実験結果から,提案したTableCacheはTTFT(Time to First Token)の最大3.62倍の高速化を実現し,性能劣化を抑えることができた。

関連論文リスト

TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving [12.80179556886128]
セグメントレベルのプレフィックス・キャッシュ・プールであるTokenLakeを提案する。キャッシュインターフェースを使用して、リクエストのクエリテンソル、プレフィックス、キャッシュ対応操作を公開します。 TokenLakeはスループットを最大2.6$times$と2.0$times$に改善し、ヒット率を2.0$times$と2.1$times$に向上させることができる。
論文参考訳（メタデータ） (2025-08-24T05:45:16Z)
LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
KVCache Cache in the Wild: Characterizing and Optimizing KVCache Cache at a Large Cloud Provider [15.532112534717262]
大規模言語モデル(LLM)の実現はクラウドプロバイダにとって重要であり、各要求処理後の中間結果(KV$)をキャッシュすることで、スループットとレイテンシが大幅に向上する。我々は、主要なLLMサービスプロバイダの1つから、KV$ワークロードパターンを初めて体系的に評価した。本稿では,特にキャッシュ容量の制限により,実世界のトレース下でのサービス性能を向上させる,ワークロード対応のキャッシュ消去ポリシーを提案する。
論文参考訳（メタデータ） (2025-06-03T08:51:38Z)
Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文参考訳（メタデータ） (2025-05-24T10:34:38Z)
CacheFocus: Dynamic Cache Re-Positioning for Efficient Retrieval-Augmented Generation [6.544043376474944]
LLM(Large Language Models)は、入力長と計算コストの制限により、様々な言語タスクを排他的に拡張する。既存のアプローチであるtextemdashは、これらの問題を部分的に緩和するが、しばしば追加のトレーニングを必要とするか、より長い入力でパフォーマンス劣化に悩まされる。 textbftextitCacheFocusは、長さの正規化を強化し、さらなるトレーニングを行わずに推論遅延を低減する方法である。
論文参考訳（メタデータ） (2025-02-16T12:33:16Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。