論文の概要: Agentic Compilation: Mitigating the LLM Rerun Crisis for Minimized-Inference-Cost Web Automation
- arxiv url: http://arxiv.org/abs/2604.09718v1
- Date: Wed, 08 Apr 2026 14:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.627189
- Title: Agentic Compilation: Mitigating the LLM Rerun Crisis for Minimized-Inference-Cost Web Automation
- Title(参考訳): エージェントコンパイル:最小化推論コストWeb自動化のためのLLM再実行危機の緩和
- Authors: Jagadeesh Chundru,
- Abstract要約: Rerun Crisis: トークン支出の線形成長と,実行頻度に対するAPI遅延を特徴付ける。
ブラウザ実行から推論を分離するCompile-and-Executeアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-driven web agents operating through continuous inference loops -- repeatedly querying a model to evaluate browser state and select actions -- exhibit a fundamental scalability constraint for repetitive tasks. We characterize this as the Rerun Crisis: the linear growth of token expenditure and API latency relative to execution frequency. For a 5-step workflow over 500 iterations, a continuous agent incurs approximately 150.00 USD in inference costs; even with aggressive caching, this remains near 15.00 USD. We propose a Compile-and-Execute architecture that decouples LLM reasoning from browser execution, reducing per-workflow inference cost to under 0.10 USD. A one-shot LLM invocation processes a token-efficient semantic representation from a DOM Sanitization Module (DSM) and emits a deterministic JSON workflow blueprint. A lightweight runtime then drives the browser without further model queries. We formalize this cost reduction from O(M x N) to amortized O(1) inference scaling, where M is the number of reruns and N is the sequential actions. Empirical evaluation across data extraction, form filling, and fingerprinting tasks yields zero-shot compilation success rates of 80-94%. Crucially, the modularity of the JSON intermediate representation allows minimal Human-in-the-Loop (HITL) patching to elevate execution reliability to near-100%. At per-compilation costs between 0.002 USD and 0.092 USD across five frontier models, these results establish deterministic compilation as a paradigm enabling economically viable automation at scales previously infeasible under continuous architectures.
- Abstract(参考訳): LLM駆動のWebエージェントは、連続した推論ループを通し、ブラウザの状態を評価し、アクションを選択するためにモデルを何度もクエリする。
我々はこれを,実行頻度に対するトークン支出とAPIレイテンシの線形成長という,再実行危機を特徴としている。
500回以上の5ステップのワークフローでは、連続エージェントは約150.00米ドルの推論コストがかかる。
本稿では,LLMをブラウザ実行から分離したCompile-and-Executeアーキテクチャを提案する。
ワンショットのLLM呼び出しは、DOMサニタイズモジュール(DSM)からトークン効率の良いセマンティック表現を処理し、決定論的JSONワークフローのブループリントを出力する。
軽量ランタイムは、さらなるモデルクエリなしでブラウザを駆動する。
我々はこのコスト削減を O(M x N) から償却 O(1) 推論スケーリングに公式化し、ここで M は再実行回数、 N はシーケンシャルアクションである。
データ抽出、フォームフィリング、フィンガープリントタスクによる経験的評価は、ゼロショットコンパイルの成功率は80-94%である。
重要なのは、JSON中間表現のモジュール化により、最小限のHuman-in-the-Loop(HITL)パッチが実行信頼性をほぼ100%向上させる。
5つのフロンティアモデルにまたがる0.002 USDから0.092 USDの間のコンパイルあたりのコストにおいて、これらの結果は、以前連続アーキテクチャで実現不可能だったスケールでの経済的に実行可能な自動化を可能にするパラダイムとして決定論的コンパイルを確立する。
関連論文リスト
- LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use [27.978435634514128]
MCPMarkは、より現実的で包括的な方法でMPPの使用を評価するために設計されたベンチマークである。
ドメインの専門家とAIエージェントが共同で作成した127ドルの高品質なタスクで構成されている。
平均して、LCMは16.2ドル、タスクごとに17.4ドルのツールコールを必要とし、以前のMPPベンチマークよりも大幅に上回っている。
論文 参考訳(メタデータ) (2025-09-28T17:53:27Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。