論文の概要: IC-Cache: Efficient Large Language Model Serving via In-context Caching
- arxiv url: http://arxiv.org/abs/2501.12689v3
- Date: Thu, 04 Sep 2025 06:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.63633
- Title: IC-Cache: Efficient Large Language Model Serving via In-context Caching
- Title(参考訳): IC-Cache: コンテキスト内キャッシングによる効率的な大規模言語モデル
- Authors: Yifan Yu, Yu Gan, Nikhil Sarda, Lillian Tsai, Jiaming Shen, Yanqi Zhou, Arvind Krishnamurthy, Fan Lai, Henry M. Levy, David Culler,
- Abstract要約: IC-Cacheは、ライブ機能拡張によるサービス効率の向上を可能にするキャッシュシステムである。
IC-CacheはLCMのスループットを1.4~5.9倍改善し、応答品質を損なうことなく28~71%のレイテンシを低下させることを示した。
- 参考スコア(独自算出の注目度): 16.75800945078601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have excelled in various applications, yet serving them at scale is challenging due to their substantial resource demands and high latency. Our real-world studies reveal that over 70% of user requests to LLMs have semantically similar counterparts, suggesting the potential for knowledge transfer among requests. However, naively caching and reusing past responses leads to a big quality drop. In this paper, we introduce IC-Cache, a caching system that enables live LLM capability augmentation to improve serving efficiency: by leveraging historical request-response pairs from larger models as in-context examples, IC-Cache empowers small LLMs to imitate and even exceed the compositional abilities (e.g., reasoning) of their larger counterparts, enabling selective offloading of requests to reduce cost and latency. Achieving this live augmentation at scale introduces intricate trade-offs between response quality, latency, and system throughput. For a new request, IC-Cache efficiently selects similar, high-utility examples to prepend them to the new request's input. At scale, it adaptively routes requests across LLMs of varying capabilities, accounting for response quality and serving loads. IC-Cache employs a cost-aware cache replay mechanism that refines example quality offline to maximize online cache utility and efficiency. Evaluations on millions of realistic requests demonstrate that IC-Cache improves LLM serving throughput by 1.4-5.9x and reduces latency by 28-71% without hurting response quality.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションで優れていますが、リソースの相当な要求と高いレイテンシのため、大規模に提供することは困難です。
我々の実世界の研究では、LLMに対するユーザリクエストの70%以上が意味的に類似していることが明らかとなり、リクエスト間の知識伝達の可能性が示唆された。
しかし、過度のキャッシュと過去のレスポンスの再利用は、大きな品質低下につながります。
本稿では,大規模モデルからの履歴的な要求応答ペアをコンテキスト内例として活用することにより,ICキャッシュが小規模なLCMを模倣し,より大きなモデルの構成能力(例えば,推論)を超え,要求を選択的にオフロードすることで,コストとレイテンシを低減できるキャッシュシステムであるICキャッシュを紹介する。
このライブ拡張を大規模に達成することは、応答品質、レイテンシ、システムのスループットの複雑なトレードオフをもたらす。
新しいリクエストに対して、IC-Cacheは、類似した高ユーティリティの例を選択して、それらを新しいリクエストの入力にプリペイトする。
大規模では、応答品質やロードの供給など、さまざまな機能を持つLLMに対して、リクエストを適応的にルーティングする。
IC-Cacheはコスト対応のキャッシュ再生機構を採用しており、オンラインキャッシュの有用性と効率を最大化するために、オフラインでサンプル品質を改善できる。
数百万の現実的な要求に対する評価では、IC-CacheはLLMサービスのスループットを1.4-5.9倍改善し、応答品質を損なうことなく、レイテンシを28-71%削減している。
関連論文リスト
- Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts [18.479200918676575]
大きな言語モデル(LLM)は目覚ましい機能を示しており、LLMサービスのユーザ需要が大幅に増加した。
しかしながら、クラウドベースのLLMサービスは、高いレイテンシ、不安定な応答性、プライバシの懸念に悩まされることが多い。
本稿では,持続的高品質LLMサービスのための深層強化学習に基づくルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T00:45:15Z) - TweakLLM: A Routing Architecture for Dynamic Tailoring of Cached Responses [1.7079407109348677]
大きな言語モデル(LLM)は、数百万のクエリを毎日処理します。
本稿では,LLMを用いた新しいルーティングアーキテクチャであるTweakLLMを紹介し,キャッシュされた応答を受信プロンプトに動的に適応させる。
論文 参考訳(メタデータ) (2025-07-31T15:50:57Z) - HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving [5.698111842478072]
初期のLLMは、後のモデルレイヤをスキップすることで、このトレードオフ空間を効率的にナビゲートします。
現在のフレームワークでは、ユーザタスクのモデルが静的に選択され、入力クエリの性質の変化に適応する能力が制限されます。
まず、HELIOSショートリストは、候補LLMの集合をリストし、プロンプトのサブセットを用いて評価し、テレメトリデータをリアルタイムで収集する。
第2に、HELIOSはこれらの評価から得られた早期出口データを使用して、選択したモデルを限られた数の層に限定的にロードする。
論文 参考訳(メタデータ) (2025-04-14T21:30:43Z) - Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。
ユーザクエリを格納することにより、セマンティックに類似した質問を効率よく識別し、大規模言語モデルに対する冗長なAPI呼び出しを伴わずに、事前生成された応答を検索できる。
実験の結果、GPT Semantic CacheはさまざまなクエリカテゴリでAPI呼び出しを最大68.8%削減し、キャッシュヒット率は61.6%から68.8%に向上した。
論文 参考訳(メタデータ) (2024-11-08T02:21:19Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。
Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。
Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-06-05T13:20:18Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。