論文の概要: Accelerating LLM Inference with Precomputed Query Storage
- arxiv url: http://arxiv.org/abs/2509.25919v1
- Date: Tue, 30 Sep 2025 08:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.473481
- Title: Accelerating LLM Inference with Precomputed Query Storage
- Title(参考訳): 予備計算クエリストレージによるLLM推論の高速化
- Authors: Jay H. Park, Youngju Cho, Choungsol Lee, Moonwook Oh, Euiseong Seo,
- Abstract要約: StorInferはストレージ支援型大規模言語モデル(LLM)推論システムである。
ユーザが事前に計算したクエリにセマンティックにマッチすると、StorInferは高価なGPU推論をバイパスし、保存されたレスポンスを即座に返す。
- 参考スコア(独自算出の注目度): 0.13048920509133805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) inference often suffers from high latency, particularly in resource-constrained environments such as on-device or edge deployments. To address this challenge, we present StorInfer, a novel storage-assisted LLM inference system that accelerates response time by precomputing and storing predictable query-response pairs offline. When a user query semantically matches a precomputed query, StorInfer bypasses expensive GPU inference and instantly returns the stored response, significantly reducing latency and compute costs. To maximize coverage and effectiveness, StorInfer employs an LLM-driven generator that adaptively produces diverse and deduplicated queries based on a given knowledge base. This is achieved via two techniques: adaptive query masking, which prevents regeneration of similar queries, and adaptive sampling, which dynamically tunes generation parameters to promote semantic diversity. The resulting query-response pairs are embedded and indexed using a disk-backed vector database to enable fast, similarity-based retrieval at runtime. Using this approach, we generated 150K unique precomputed pairs (taking up to 830 MB of storage space), achieving up to 17.3% latency reduction with no loss in response quality. Our evaluation across multiple QA datasets demonstrates the practicality and scalability of storage-assisted inference, especially in scenarios with predictable query distributions. StorInfer highlights a promising direction in leveraging storage as a primary enabler for efficient, low-latency LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、特にオンデバイスやエッジデプロイメントのようなリソース制約の厳しい環境では、高いレイテンシに悩まされることが多い。
この課題に対処するため、StorInferは、予測可能なクエリ応答対をオフラインでプリ計算し、保存することで応答時間を高速化する新しいストレージ支援LCM推論システムである。
ユーザが事前に計算したクエリにセマンティックにマッチすると、StorInferは高価なGPU推論をバイパスし、保存されたレスポンスを即座に返す。
カバレッジと有効性を最大化するために、StorInferはLLM駆動のジェネレータを使用して、与えられた知識ベースに基づいて、多種多様な重複クエリを適応的に生成する。
これは、類似クエリの再生を防止するアダプティブクエリマスキング(Adaptive query masking)と、セマンティック多様性を促進するために生成パラメータを動的にチューニングするアダプティブサンプリング(Adaptive sample)という2つの手法によって実現される。
結果のクエリ応答ペアは、実行時に高速で類似性に基づく検索を可能にするために、ディスクバックベクタデータベースを使用して組み込み、インデックス化される。
このアプローチを用いることで、150Kのプリ計算済みペア(最大830MBのストレージ空間)を生成し、応答品質を損なうことなく、最大17.3%のレイテンシ削減を実現しました。
複数のQAデータセットに対する評価は、特に予測可能なクエリ分布を持つシナリオにおいて、ストレージ支援推論の実用性とスケーラビリティを示す。
StorInferは、効率的な低レイテンシのLLMデプロイメントのためのプライマリイネーラとしてストレージを活用するという、有望な方向性を強調している。
関連論文リスト
- Hybrid Deep Searcher: Integrating Parallel and Sequential Search Reasoning [57.78245296980122]
本稿では,自然質問から自動生成されるデータセットであるHDS-QA(Hybrid Deep Search QA)を紹介する。
並列化可能な独立サブクエリ(同時に実行可能)と逐次依存サブクエリ(ステップバイステップの解決を必要とする)を組み合わせたハイブリッドホップ質問を含む。
モデルの名称はHybridDeepSearcherで、複数のベンチマークで最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2025-08-26T15:15:17Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs [5.02504911036896]
最近の大規模言語モデル(LLM)は、入力コンテキストの長さとモデルサイズが大きくなるにつれて、推論遅延が増加する。
本稿では,ディスクベースのキー値(KV)キャッシュを利用して,プリフィル時の計算負担を軽減することによるTTFT削減手法を提案する。
また、マルチインスタンスLLM RAGサービス環境のためのディスクベースの共有KVキャッシュ管理システムであるShared RAG-DCacheを導入する。
論文 参考訳(メタデータ) (2025-04-16T04:59:18Z) - Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [3.0111172730438565]
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験は、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さにより、データベースのリコールとテスト精度を維持しながら、データベース呼び出しを78.9%削減することを示した。
論文 参考訳(メタデータ) (2025-03-07T15:54:04Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。
本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - Attendre: Wait To Attend By Retrieval With Evicted Queries in
Memory-Based Transformers for Long Context Processing [2.9733429388858714]
効果的なアプローチの1つは、FIFOメモリを使用して過去のチャンクから注目サブレイヤのキーと値を保存することで、その後のクエリへの参加を可能にすることである。
本稿では,LRAやLFAなどの省略ポリシーを用いてメモリサイズを小さくし,様々なアーキテクチャに適応することを提案する。
また,クエリメモリ内のクエリを削除したキー値メモリを検索することで,待ち待ち待ちのメカニズムであるAttendre層を提案する。
論文 参考訳(メタデータ) (2024-01-10T02:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。