Fugu-MT 論文翻訳(概要): Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

論文の概要: Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

arxiv url: http://arxiv.org/abs/2605.20630v1
Date: Wed, 20 May 2026 02:30:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.44418
Title: Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines
Title（参考訳）: エージェント計画実行パイプラインにおける時間的セマンティックキャッシングとワークフロー最適化の評価
Authors: Alimurtaza Mustafa Merchant, Krish Veera, Sajal Kumar Goyla, Shambhawi Bhure, Dhaval Patel, Kaoutar El Maghraoui,
Abstract要約: 単一のユーザクエリは、センサデータ、作業順序、障害モード、予測ツール、ドメイン固有のエージェントの調整を必要とする可能性があるため、産業資産運用はレイテンシに敏感である。 AssetOpsBench (AOB) は, 計画実行パイプラインがツール発見, LLM計画, MCPツール実行, 最終的な要約から繰り返しオーバーヘッドを露呈する産業エージェントベンチマークである。本稿では,AOB計画実行パイプラインのための2つの補完的な最適化レイヤを提案する。
参考スコア（独自算出の注目度）: 3.4989760172592264
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Industrial asset operations workflows are latency-sensitive because a single user query may require coordination over sensor data, work orders, failure modes, forecasting tools, and domain-specific agents. We evaluate this problem on AssetOpsBench (AOB), an industrial agent benchmark whose plan-execute pipeline exposes repeated overhead from tool discovery, LLM planning, MCP tool execution, and final summarization. Existing LLM caching techniques such as KV-cache reuse and embedding-based semantic caching were designed for chatbot serving and break down when output validity depends on time, asset, or sensor parameters. We propose two complementary optimization layers for AOB plan-execute pipelines: a temporal semantic cache and a set of MCP workflow optimizations combining disk-backed tool-discovery caching and dependency-aware parallel step execution. MCP workflow optimizations corresponded to a 1.67x speedup and reduced median end-to-end latency by about 40.0% while the temporal-cache benchmark achieved a median of 30.6x speedup on cache hits. Beyond the speedup, our results expose a concrete failure mode of pure semantic caching for parameter-rich industrial queries, providing a critical analysis of how caching choices interact with evaluation correctness in MCP-backed agent benchmarks.
Abstract（参考訳）: 単一のユーザクエリは、センサデータ、作業順序、障害モード、予測ツール、ドメイン固有のエージェントの調整を必要とする可能性があるため、産業資産運用ワークフローはレイテンシに敏感である。 AssetOpsBench (AOB) は, 計画実行パイプラインがツール発見, LLM計画, MCPツール実行, 最終的な要約から繰り返しオーバーヘッドを露呈する産業エージェントベンチマークである。 KV-cacheの再利用や埋め込みベースのセマンティックキャッシュといった既存のLCMキャッシュ技術は、出力の妥当性が時間、資産、センサーパラメータに依存する場合にチャットボットのサービスと分解のために設計された。本稿では,AOB計画実行パイプラインのための2つの補完的な最適化レイヤを提案する。 MCPワークフローの最適化は1.67倍のスピードアップと中央値のエンドツーエンドのレイテンシを約40.0%削減し、時間キャッシュのベンチマークではキャッシュヒット時の中央値の30.6倍のスピードアップを達成した。高速化の他に、パラメータリッチな産業用クエリに対する純粋セマンティックキャッシュの具体的な障害モードを明らかにし、MPP支援エージェントベンチマークにおけるキャッシング選択と評価正当性がどのように相互作用するかを批判的に分析する。

関連論文リスト

Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。 Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文参考訳（メタデータ） (2026-03-23T17:01:42Z)
Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks [1.2292307778008844]
本稿では,3大言語モデル(LLM)プロバイダ間でのプロンプトキャッシュの総合評価について述べる。以上の結果から,プロンプトキャッシングによりAPIコストが45～80%削減され,プロバイダ間で13～31%短縮された。
論文参考訳（メタデータ） (2026-01-09T18:41:57Z)
TweakLLM: A Routing Architecture for Dynamic Tailoring of Cached Responses [2.1604594801267667]
大きな言語モデル(LLM)は、数百万のクエリを毎日処理します。本稿では,LLMを用いた新しいルーティングアーキテクチャであるTweakLLMを紹介し,キャッシュされた応答を受信プロンプトに動的に適応させる。
論文参考訳（メタデータ） (2025-07-31T15:50:57Z)
Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [6.674782158041247]
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。 Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。我々の実験では、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さは、データベースのリコールとテストの精度を維持しながら、データベース呼び出しを77.2%削減することを示した。
論文参考訳（メタデータ） (2025-03-07T15:54:04Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文参考訳（メタデータ） (2024-03-25T22:49:56Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。