論文の概要: Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching
- arxiv url: http://arxiv.org/abs/2506.14852v1
- Date: Tue, 17 Jun 2025 04:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.429893
- Title: Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching
- Title(参考訳): 試験時間計画キャッシングによるLCM剤の高効率化
- Authors: Qizheng Zhang, Michael Wornow, Kunle Olukotun,
- Abstract要約: LLMベースのエージェントアプリケーションは、広範な計画と推論要求のためにかなりのコストがかかる。
既存のLCMキャッシュ技術は、外部データや環境コンテキストに依存するエージェントアプリケーションには不十分である。
提案するエージェント型プランキャッシュは,構造化されたプランテンプレートを抽出し,保存し,適応し,再利用する新しい手法である。
- 参考スコア(独自算出の注目度): 2.382770686742571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agentic applications have shown increasingly remarkable capabilities in complex workflows but incur substantial costs due to extensive planning and reasoning requirements. Existing LLM caching techniques (like context caching and semantic caching), primarily designed for serving chatbots, are insufficient for agentic applications where outputs depend on external data or environmental contexts. We propose agentic plan caching, a novel approach that extracts, stores, adapts, and reuses structured plan templates from planning stages of agentic applications across semantically similar tasks to reduce the cost of serving. Unlike traditional semantic caching, our system extracts plan templates from completed agent executions at test-time, employs keyword extraction to match new requests against cached plans, and utilizes lightweight models to adapt these templates to task-specific plans with contexts. Evaluation across multiple real-world agentic applications shows that our system can reduce costs by 46.62% on average while maintaining performance, offering a more efficient solution for serving LLM-based agents that complements existing LLM serving infrastructures.
- Abstract(参考訳): LLMベースのエージェントアプリケーションは、複雑なワークフローにおいてますます顕著な能力を示しているが、広範な計画と推論要求のためにかなりのコストがかかる。
既存のLCMキャッシュ技術(コンテキストキャッシュやセマンティックキャッシュなど)は、主にチャットボットを提供するように設計されており、外部データや環境コンテキストに依存するエージェントアプリケーションには不十分である。
エージェント型計画キャッシング(エージェント型計画キャッシング)を提案する。エージェント型計画キャッシング(エージェント型計画キャッシング)は,エージェント型アプリケーションの計画段階から構築された計画テンプレートを抽出し,適用し,再利用することで,サービスコストを削減する。
従来のセマンティックキャッシュとは異なり、テスト時に完了したエージェントの実行からプランテンプレートを抽出し、新しいリクエストをキャッシュされたプランにマッチさせるためにキーワード抽出を使用し、軽量モデルを使用してこれらのテンプレートをタスク固有のプランにコンテキストで適応する。
複数の実世界のエージェントアプリケーションにまたがって評価すると、我々のシステムは性能を維持しながら平均46.62%のコスト削減が可能であり、既存のLLMサービスインフラを補完するLLMベースのエージェントを提供するためのより効率的なソリューションを提供する。
関連論文リスト
- OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。