論文の概要: What Limits Agentic Systems Efficiency?
- arxiv url: http://arxiv.org/abs/2510.16276v1
- Date: Sat, 18 Oct 2025 00:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.927311
- Title: What Limits Agentic Systems Efficiency?
- Title(参考訳): エージェントシステムの効率の限界は何か?
- Authors: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman,
- Abstract要約: 既存の研究は主に推論性能に焦点を当てており、しばしばエージェントシステムの効率を無視する。
エンドツーエンドのレイテンシを,APIレイテンシとWeb環境レイテンシという,2つの主要コンポーネントに分解します。
我々は、Web環境のオーバーヘッドを低減できる投機的実行を付加したキャッシュフレームワークであるSpecCacheを提案する。
- 参考スコア(独自算出の注目度): 6.355808944609144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated strong reasoning capabilities. To further enhance LLM capabilities, recent agentic systems, such as Deep Research, incorporate web interactions into LLM reasoning to mitigate uncertainties and reduce potential errors. However, existing research predominantly focuses on reasoning performance, often neglecting the efficiency of agentic systems. In this work, we present a comprehensive empirical study that identifies efficiency bottlenecks in web-interactive agentic systems. We decompose end-to-end latency into two primary components: LLM API latency and web environment latency. We conduct a comprehensive empirical study across 15 models and 5 providers to demonstrate high variability in API-based agentic systems. We observe that web environment latency can contribute as much as 53.7% to the overall latency in a web-based agentic system. To improve latency, we propose SpecCache, a caching framework augmented with speculative execution that can reduce web environment overhead. Extensive evaluations on two standard benchmarks show that our approach improves the cache hit rate by up to 58x compared to a random caching strategy, while reducing web environment overhead by up to 3.2x, without degrading agentic system performance.
- Abstract(参考訳): OpenAI-o1やDeepSeek-R1のような大規模言語モデル(LLM)は、強力な推論機能を示している。
近年のエージェントシステムであるDeep Researchでは,LCMの推論にWebインタラクションを組み込んで不確実性を軽減し,潜在的なエラーを低減している。
しかし、既存の研究は主に推論性能に重点を置いており、しばしばエージェントシステムの効率を無視している。
本研究では,Web対話型エージェントシステムにおける効率ボトルネックを同定する総合的な実証的研究について述べる。
LLM APIレイテンシとWeb環境レイテンシの2つの主要コンポーネントに、エンドツーエンドのレイテンシを分解します。
我々は15のモデルと5のプロバイダを対象とした総合的な実証的研究を行い、APIベースのエージェントシステムにおいて高い多様性を示す。
我々は、Web環境のレイテンシが、Webベースのエージェントシステム全体のレイテンシに最大53.7%の遅延をもたらすことを観察する。
レイテンシを改善するために、Web環境のオーバーヘッドを低減できる投機的実行を付加したキャッシュフレームワークであるSpecCacheを提案する。
提案手法は, エージェントシステムの性能を低下させることなく, ウェブ環境のオーバーヘッドを最大3.2倍に削減し, キャッシュヒット率を最大58倍に向上することを示す。
関連論文リスト
- Speculative Actions: A Lossless Framework for Faster Agentic Systems [6.708126506152481]
AIエージェントの実行は遅く、トレーニングや評価、デプロイメントを妨げていることが多い。
マイクロプロセッサにおける投機的実行に着想を得て,より高速なモデルを用いて潜在的行動を予測するフレームワークを提案する。
我々は,このフレームワークを3つのエージェント環境 – ゲーム,eコマース,Web検索,オペレーティングシステム環境のための"ロッキー"拡張 – で評価する。
論文 参考訳(メタデータ) (2025-10-05T21:28:11Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs [48.653022530291494]
大規模言語モデル(LLM)は、様々な推論や生成タスクで顕著なパフォーマンスを示している。
この研究は、リアルタイム意思決定タスクにおいて、このレイテンシ品質のトレードオフに関する最初の体系的な研究を示す。
実時間要求に基づいてモデルサイズと量子化レベルを動的に選択する適応型フレームワークFPXを提案する。
論文 参考訳(メタデータ) (2025-05-26T04:03:48Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - DeLag: Using Multi-Objective Optimization to Enhance the Detection of
Latency Degradation Patterns in Service-based Systems [0.76146285961466]
DeLagは,サービスベースシステムの性能問題を診断するための,新しい自動検索ベースのアプローチである。
DeLagは、精度、リコール、異種性を最適化しながら、複数のレイテンシパターンを同時に検索する。
論文 参考訳(メタデータ) (2021-10-21T13:59:32Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。