論文の概要: QCFuse: Query-Aware Cache Fusion via Compressed View for Efficient RAG Serving
- arxiv url: http://arxiv.org/abs/2606.05875v1
- Date: Thu, 04 Jun 2026 08:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.6646
- Title: QCFuse: Query-Aware Cache Fusion via Compressed View for Efficient RAG Serving
- Title(参考訳): QCFuse: 効率的なRAGサービングのための圧縮ビューによるクエリ対応キャッシュフュージョン
- Authors: Jianxin Yan, Wangze Ni, Zhenxin Li, Jiabao Jin, Zhitao Shen, Haoyang Li, Jia Zhu, Peng Cheng, Xuemin Lin, Lei Chen, Kui Ren,
- Abstract要約: QCFuseはRAGキャッシュ融合のための圧縮ビュークエリ対応セレクタである。
SGLangでQCFuseを実装し、6つのデータセットにまたがる4つのオープンウェイトLCMでQCFuseを評価する。
- 参考スコア(独自算出の注目度): 33.59336959850551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) improves large language model (LLM) answer quality by grounding generation in external evidence, but processing retrieved contexts makes the prefill stage a dominant serving cost. RAG cache fusion reduces this cost by reusing precomputed key-value (KV) caches for retrieved chunks and selectively recomputing tokens under the current prompt. Existing selectors, however, face a dilemma between quality and efficiency: fast query-agnostic or final-layer query-to-context selectors can miss request-relevant evidence, whereas full-view query-aware selectors require broad context and layer visibility before recomputation and therefore stall the layer-wise cache-fusion pipeline. We present QCFuse, a compressed-view query-aware selector for RAG cache fusion. QCFuse uses chunk-anchor query probing to condition user-query states on compact per-chunk anchors and critical-layer profiling to identify recomputation tokens without all-layer inspection. We implement QCFuse in SGLang and evaluate it on four open-weight LLMs across six datasets. QCFuse reaches full-prefill-level quality. At matched quality, QCFuse achieves an average prefill-time speedup of 1.7x over full prefill and 1.5x over ProphetKV, the strongest quality-preserving baseline.
- Abstract(参考訳): 検索用拡張生成(RAG)は、外部証拠に生成を基礎づけることにより、大言語モデル(LLM)の応答品質を向上させるが、検索したコンテキストを処理することにより、プリフィルステージが支配的なサービスコストとなる。
RAGキャッシュ融合は、取得したチャンクに対して事前計算されたキー値(KV)キャッシュを再利用し、現在のプロンプトの下でトークンを選択的に再計算することで、このコストを削減する。
しかし、既存のセレクタは、品質と効率の間にジレンマに直面している: 高速なクエリ非依存または最終層クエリ対コンテキストセレクタは、要求関連エビデンスを見逃す可能性がある。
本稿では,RAGキャッシュ融合のための圧縮ビュークエリ対応セレクタQCFuseを提案する。
QCFuseはチャンクアンカークエリを用いて、コンパクトなチャンク・アンカー上のユーザ・クエリ状態とクリティカル・レイヤ・プロファイリングを用いて、全層検査なしで再計算トークンを識別する。
SGLangでQCFuseを実装し、6つのデータセットにまたがる4つのオープンウェイトLCMでQCFuseを評価する。
QCFuseは完全なプリフィルレベルの品質に達する。
一致した品質では、QCFuseはフルプリフィルで平均1.7倍、ProphetKVで1.5倍のスピードアップを達成する。
関連論文リスト
- Sparse Prefix Caching for Hybrid and Recurrent LLM Serving [0.7284556903703034]
重なり合う深さの分布の下で,スパースプレフィックスキャッシングをチェックポイント配置として定式化する。
リクエストが非自明なプレフィックスを共有する場合、実世界のデータ上で標準非対称性によって追跡されるフロンティアを一貫して改善することを示す。
正確な出力を保持し、リカレント計算自体を変更したり、新しいリカレント更新カーネルを必要としたりしない。
論文 参考訳(メタデータ) (2026-04-17T09:24:58Z) - QCFuse: Query-Centric Cache Fusion for Efficient RAG Inference [23.22388531954795]
QCFuseは、ユーザクエリを中心とした革新的なKVキャッシュ融合システムである。
QCFuseはLLMの応答効率を40%向上させる。
特定のシナリオでは、QCFuseはより高い応答精度をもたらす注意喚起効果を達成する。
論文 参考訳(メタデータ) (2026-03-30T02:55:25Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [6.674782158041247]
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験では、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さは、データベースのリコールとテストの精度を維持しながら、データベース呼び出しを77.2%削減することを示した。
論文 参考訳(メタデータ) (2025-03-07T15:54:04Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。