論文の概要: ToolCaching: Towards Efficient Caching for LLM Tool-calling
- arxiv url: http://arxiv.org/abs/2601.15335v1
- Date: Tue, 20 Jan 2026 09:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.35786
- Title: ToolCaching: Towards Efficient Caching for LLM Tool-calling
- Title(参考訳): ToolCaching: LLMツールコールの効率的なキャッシングを目指して
- Authors: Yi Zhai, Dian Shen, Junzhou Luo, Bin Yang,
- Abstract要約: キャッシュは、冗長あるいは反復的なツール呼び出し要求の問題に対する古典的な解決策である。
効率的な機能駆動型アダプティブキャッシュフレームワークであるToolCachingを提案する。
ToolCachingはキャッシュヒット率を最大11%向上し,標準ポリシよりも34%低レイテンシを実現している。
- 参考スコア(独自算出の注目度): 13.738787213936225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have revolutionized web applications, enabling intelligent search, recommendation, and assistant services with natural language interfaces. Tool-calling extends LLMs with the ability to interact with external APIs, greatly enhancing their practical utility. While prior research has improved tool-calling performance by adopting traditional computer systems techniques, such as parallel and asynchronous execution, the challenge of redundant or repeated tool-calling requests remains largely unaddressed. Caching is a classic solution to this problem, but applying it to LLM tool-calling introduces new difficulties due to heterogeneous request semantics, dynamic workloads, and varying freshness requirements, which render conventional cache policies ineffective. To address these issues, we propose ToolCaching, an efficient feature-driven and adaptive caching framework for LLM tool-calling systems. ToolCaching systematically integrates semantic and system-level features to evaluate request cacheability and estimate caching value. At its core, the VAAC algorithm integrates bandit-based admission with value-driven, multi-factor eviction, jointly accounting for request frequency, recency, and caching value. Extensive experiments on synthetic and public tool-calling workloads demonstrate that ToolCaching with VAAC achieves up to 11% higher cache hit ratios and 34% lower latency compared to standard policies, effectively accelerating LLM tool-calling in practical applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、Webアプリケーションに革命をもたらし、自然言語インタフェースによるインテリジェントな検索、レコメンデーション、アシスタントサービスを可能にした。
ツールコールはLLMを拡張して外部APIとのインタラクションを可能にし、実用性を大幅に向上させる。
従来の調査では、並列実行や非同期実行といった従来のコンピュータシステム技術を採用することで、ツールコールのパフォーマンスが向上していたが、冗長あるいは反復的なツールコール要求の課題は、ほとんど未解決のままである。
キャッシュは、この問題に対する古典的な解決策であるが、LLMツールコールに適用すると、不均一な要求セマンティクス、動的ワークロード、およびさまざまなフレッシュネス要件による新たな困難が生じ、従来のキャッシュポリシが非効率になる。
これらの問題に対処するため,LLMツールコールシステムのための効率的な機能駆動型適応キャッシングフレームワークであるToolCachingを提案する。
ToolCachingは、セマンティックとシステムレベルの機能を体系的に統合し、要求のキャッシュ可能性を評価し、キャッシング値を見積もる。
VAACアルゴリズムの中核は、帯域ベースの入出力と、値駆動の多要素消去を統合し、要求周波数、リレーシ、キャッシング値を共同で説明する。
合成および公開ツール呼び出しワークロードに関する大規模な実験は、VAACを使用したToolCachingが標準ポリシーと比較して最大11%のキャッシュヒット率と34%のレイテンシを達成したことを実証している。
関連論文リスト
- Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks [1.2292307778008844]
本稿では,3大言語モデル(LLM)プロバイダ間でのプロンプトキャッシュの総合評価について述べる。
以上の結果から,プロンプトキャッシングによりAPIコストが45~80%削減され,プロバイダ間で13~31%短縮された。
論文 参考訳(メタデータ) (2026-01-09T18:41:57Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - TweakLLM: A Routing Architecture for Dynamic Tailoring of Cached Responses [2.1604594801267667]
大きな言語モデル(LLM)は、数百万のクエリを毎日処理します。
本稿では,LLMを用いた新しいルーティングアーキテクチャであるTweakLLMを紹介し,キャッシュされた応答を受信プロンプトに動的に適応させる。
論文 参考訳(メタデータ) (2025-07-31T15:50:57Z) - GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。
ユーザクエリを格納することにより、セマンティックに類似した質問を効率よく識別し、大規模言語モデルに対する冗長なAPI呼び出しを伴わずに、事前生成された応答を検索できる。
実験の結果、GPT Semantic CacheはさまざまなクエリカテゴリでAPI呼び出しを最大68.8%削減し、キャッシュヒット率は61.6%から68.8%に向上した。
論文 参考訳(メタデータ) (2024-11-08T02:21:19Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Anchor-based Large Language Models [33.86392289481657]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文 参考訳(メタデータ) (2024-02-12T12:48:02Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。