Fugu-MT 論文翻訳(概要): What Limits Agentic Systems Efficiency?

論文の概要: What Limits Agentic Systems Efficiency?

arxiv url: http://arxiv.org/abs/2510.16276v1
Date: Sat, 18 Oct 2025 00:21:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 00:56:38.927311
Title: What Limits Agentic Systems Efficiency?
Title（参考訳）: エージェントシステムの効率の限界は何か?
Authors: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman,
Abstract要約: 既存の研究は主に推論性能に焦点を当てており、しばしばエージェントシステムの効率を無視する。エンドツーエンドのレイテンシを,APIレイテンシとWeb環境レイテンシという,2つの主要コンポーネントに分解します。我々は、Web環境のオーバーヘッドを低減できる投機的実行を付加したキャッシュフレームワークであるSpecCacheを提案する。
参考スコア（独自算出の注目度）: 6.355808944609144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated strong reasoning capabilities. To further enhance LLM capabilities, recent agentic systems, such as Deep Research, incorporate web interactions into LLM reasoning to mitigate uncertainties and reduce potential errors. However, existing research predominantly focuses on reasoning performance, often neglecting the efficiency of agentic systems. In this work, we present a comprehensive empirical study that identifies efficiency bottlenecks in web-interactive agentic systems. We decompose end-to-end latency into two primary components: LLM API latency and web environment latency. We conduct a comprehensive empirical study across 15 models and 5 providers to demonstrate high variability in API-based agentic systems. We observe that web environment latency can contribute as much as 53.7% to the overall latency in a web-based agentic system. To improve latency, we propose SpecCache, a caching framework augmented with speculative execution that can reduce web environment overhead. Extensive evaluations on two standard benchmarks show that our approach improves the cache hit rate by up to 58x compared to a random caching strategy, while reducing web environment overhead by up to 3.2x, without degrading agentic system performance.
Abstract（参考訳）: OpenAI-o1やDeepSeek-R1のような大規模言語モデル(LLM)は、強力な推論機能を示している。近年のエージェントシステムであるDeep Researchでは,LCMの推論にWebインタラクションを組み込んで不確実性を軽減し,潜在的なエラーを低減している。しかし、既存の研究は主に推論性能に重点を置いており、しばしばエージェントシステムの効率を無視している。本研究では,Web対話型エージェントシステムにおける効率ボトルネックを同定する総合的な実証的研究について述べる。 LLM APIレイテンシとWeb環境レイテンシの2つの主要コンポーネントに、エンドツーエンドのレイテンシを分解します。我々は15のモデルと5のプロバイダを対象とした総合的な実証的研究を行い、APIベースのエージェントシステムにおいて高い多様性を示す。我々は、Web環境のレイテンシが、Webベースのエージェントシステム全体のレイテンシに最大53.7%の遅延をもたらすことを観察する。レイテンシを改善するために、Web環境のオーバーヘッドを低減できる投機的実行を付加したキャッシュフレームワークであるSpecCacheを提案する。提案手法は, エージェントシステムの性能を低下させることなく, ウェブ環境のオーバーヘッドを最大3.2倍に削減し, キャッシュヒット率を最大58倍に向上することを示す。

論文の概要: What Limits Agentic Systems Efficiency?

関連論文リスト