論文の概要: From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings
- arxiv url: http://arxiv.org/abs/2603.03301v1
- Date: Sat, 07 Feb 2026 10:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.126687
- Title: From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings
- Title(参考訳): LLM埋め込みのためのセマンティックキャッシング
- Authors: Dvir David Biton, Roy Friedman,
- Abstract要約: 大規模言語モデル(LLM)は、より高速な応答と低コストの需要を生み出している。
セマンティックキャッシュは、埋め込みを通じてセマンティックに類似したリクエストを再利用し、このニーズに対処するが、古典的なキャッシュ仮定を破る。
オンラインのセマンティックキャッシュポリシーは, 精度, 頻度, 局所性を組み合わせたものである。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of large language models (LLMs) has created demand for faster responses and lower costs. Semantic caching, reusing semantically similar requests via their embeddings, addresses this need but breaks classic cache assumptions and raises new challenges. In this paper, we explore offline policies for semantic caching, proving that implementing an optimal offline policy is NP-hard, and propose several polynomial-time heuristics. We also present online semantic aware cache policies that combine recency, frequency, and locality. Evaluations on diverse datasets show that while frequency based policies are strong baselines, our novel variant improves semantic accuracy. Our findings reveal effective strategies for current systems and highlight substantial headroom for future innovation. All code is open source.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な採用により、より高速な応答と低コストの要求が生まれている。
セマンティックキャッシュは、組み込みを通じてセマンティックに類似したリクエストを再利用し、このニーズに対処するが、古典的なキャッシュ仮定を破り、新たな課題を提起する。
本稿では、セマンティックキャッシングのためのオフラインポリシーについて検討し、最適オフラインポリシーの実装がNPハードであることを証明し、多項式時間ヒューリスティックスを提案する。
また、リレー、頻度、局所性を組み合わせたオンラインセマンティックキャッシュポリシーも提示する。
多様なデータセットの評価では、周波数ベースのポリシーは強いベースラインであるが、我々の新しい変種は意味論的精度を向上させる。
本研究は,現在のシステムに対する効果的な戦略を明らかにするとともに,今後のイノベーションの源流を浮き彫りにしている。
すべてのコードはオープンソースです。
関連論文リスト
- Asynchronous Verified Semantic Caching for Tiered LLM Architectures [0.7204795910838664]
大規模言語モデル(LLM)は、現在、検索、補助、エージェントの重要な経路にある。
オンラインに集約された動的キャッシュによってバックアップされたログから収集された、キュレートされたオフラインのベットされたレスポンスの静的キャッシュ。
textbfKritesは非同期のLCM-judgedキャッシュポリシで、サービス決定を変更することなく静的カバレッジを拡張する。
論文 参考訳(メタデータ) (2026-02-13T18:25:00Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [59.12542274007847]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。
LoopServeは、既存のベースラインに比べて一貫して優れた効率を実現している。
論文 参考訳(メタデータ) (2025-07-18T06:12:08Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - An Online Gradient-Based Caching Policy with Logarithmic Complexity and Regret Guarantees [13.844896723580858]
我々は、対数計算の複雑さを突破するグラデーションベースのオンラインキャッシュポリシーを新たに導入する。
この進歩により、何百万ものリクエストやアイテムを伴って、大規模で現実世界のトレース上でポリシーをテストすることができます。
論文 参考訳(メタデータ) (2024-05-02T13:11:53Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。