論文の概要: Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching
- arxiv url: http://arxiv.org/abs/2506.14852v1
- Date: Tue, 17 Jun 2025 04:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.429893
- Title: Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching
- Title(参考訳): 試験時間計画キャッシングによるLCM剤の高効率化
- Authors: Qizheng Zhang, Michael Wornow, Kunle Olukotun,
- Abstract要約: LLMベースのエージェントアプリケーションは、広範な計画と推論要求のためにかなりのコストがかかる。
既存のLCMキャッシュ技術は、外部データや環境コンテキストに依存するエージェントアプリケーションには不十分である。
提案するエージェント型プランキャッシュは,構造化されたプランテンプレートを抽出し,保存し,適応し,再利用する新しい手法である。
- 参考スコア(独自算出の注目度): 2.382770686742571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agentic applications have shown increasingly remarkable capabilities in complex workflows but incur substantial costs due to extensive planning and reasoning requirements. Existing LLM caching techniques (like context caching and semantic caching), primarily designed for serving chatbots, are insufficient for agentic applications where outputs depend on external data or environmental contexts. We propose agentic plan caching, a novel approach that extracts, stores, adapts, and reuses structured plan templates from planning stages of agentic applications across semantically similar tasks to reduce the cost of serving. Unlike traditional semantic caching, our system extracts plan templates from completed agent executions at test-time, employs keyword extraction to match new requests against cached plans, and utilizes lightweight models to adapt these templates to task-specific plans with contexts. Evaluation across multiple real-world agentic applications shows that our system can reduce costs by 46.62% on average while maintaining performance, offering a more efficient solution for serving LLM-based agents that complements existing LLM serving infrastructures.
- Abstract(参考訳): LLMベースのエージェントアプリケーションは、複雑なワークフローにおいてますます顕著な能力を示しているが、広範な計画と推論要求のためにかなりのコストがかかる。
既存のLCMキャッシュ技術(コンテキストキャッシュやセマンティックキャッシュなど)は、主にチャットボットを提供するように設計されており、外部データや環境コンテキストに依存するエージェントアプリケーションには不十分である。
エージェント型計画キャッシング(エージェント型計画キャッシング)を提案する。エージェント型計画キャッシング(エージェント型計画キャッシング)は,エージェント型アプリケーションの計画段階から構築された計画テンプレートを抽出し,適用し,再利用することで,サービスコストを削減する。
従来のセマンティックキャッシュとは異なり、テスト時に完了したエージェントの実行からプランテンプレートを抽出し、新しいリクエストをキャッシュされたプランにマッチさせるためにキーワード抽出を使用し、軽量モデルを使用してこれらのテンプレートをタスク固有のプランにコンテキストで適応する。
複数の実世界のエージェントアプリケーションにまたがって評価すると、我々のシステムは性能を維持しながら平均46.62%のコスト削減が可能であり、既存のLLMサービスインフラを補完するLLMベースのエージェントを提供するためのより効率的なソリューションを提供する。
関連論文リスト
- SmartLLMs Scheduler: A Framework for Cost-Effective LLMs Utilization [9.615876932810126]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示している。
多様なタスクにLLMをデプロイするための既存の最適化戦略は、静的スケジューリングに重点を置いている。
本稿では,動的かつ費用対効果の高いスケジューリングソリューションであるSmartLLMs Scheduler (SLS)を提案する。
論文 参考訳(メタデータ) (2025-08-05T09:35:52Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。
これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。
したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文 参考訳(メタデータ) (2025-02-01T12:08:38Z) - CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning [43.13654681136326]
コスト対応ツール計画のためのLCM(CATP-LLM)フレームワークを提案する。
具体的には、多分岐非順序計画を作成するためのLLMを強化するためのツール計画言語を設計する。
また,多様なタスクから11,100個の評価サンプルを含む,コスト対応プランニングのための最初のデータセットであるOpenCATPについても紹介する。
論文 参考訳(メタデータ) (2024-11-25T12:05:49Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [39.53593677934238]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。
しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。
本稿では、自然言語の表現性と形式言語の精度を統合することで、LLMをベースとしたエージェントのための新しい「フォーマルLLM」フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-01T17:30:50Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。