論文の概要: Revisiting Observation Reduction for Web Agents: Comprehensive Evaluation with a Lightweight Framework
- arxiv url: http://arxiv.org/abs/2605.29397v1
- Date: Thu, 28 May 2026 05:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.767114
- Title: Revisiting Observation Reduction for Web Agents: Comprehensive Evaluation with a Lightweight Framework
- Title(参考訳): Webエージェントの再検討:軽量フレームワークによる総合的評価
- Authors: Masafumi Enomoto, Ryoma Obara, Haochen Zhang, Masafumi Oyamada,
- Abstract要約: タスク障害の原因となる最小限のHTML要素セットである最小故障セット(MFS)に基づく軽量評価フレームワークを提案する。
性能を維持しながらエージェント遅延を低減するために,抽出HTML削減手法は高い計算コストかドメイン固有の最適化を必要とすることがわかった。
- 参考スコア(独自算出の注目度): 6.236881831551865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: HTML observations in LLM-based web agents are extremely long, and while many reduction methods have been proposed, it remains unclear which methods reduce overall agent latency while maintaining performance. The main obstacle is the high cost of end-to-end evaluation: in our experiments, evaluating 11 methods across 32 configurations on 33 tasks of WorkArena L1 required 232.4 cumulative hours. To address this, we propose a lightweight evaluation framework based on the Minimal Failure Set (MFS), the minimal set of HTML elements whose removal causes task failure. We define coverage as the fraction of instances in which a reduction method fully retains the MFS, which serves as a proxy metric that requires neither web access nor LLM inference. We validate that coverage strongly correlates with end-to-end success rate, with over 100$\times$ speedup in cumulative evaluation time on both benchmarks. Using this framework, we find that extractive HTML reduction methods require either high computation cost or domain-specific optimization to reduce agent latency while maintaining performance. Building on this, we optimize a pruning program on MFS training data, achieving 2.2$\times$ faster per-step latency on WorkArena L1 while retaining 84\% of the original success rate, and 3.1$\times$ faster on WebLinx while retaining 89\%.
- Abstract(参考訳): LLMベースのWebエージェントにおけるHTML観察は非常に長く、多くのリダクション手法が提案されているが、どのメソッドがパフォーマンスを維持しながら、全体的なエージェント遅延を低減するのかは定かではない。
実験では、33タスクのWorkArena L1上で、32のコンフィグレーションにまたがる11のメソッドを評価するのに232.4の累積時間が必要でした。
そこで本研究では,タスク障害の原因となるHTML要素の最小セットであるミニマルフェールセット(MFS)に基づく軽量評価フレームワークを提案する。
本稿では,Web アクセスも LLM 推論も必要としないプロキシ指標として機能する MFS を完全に保持するインスタンスの比率としてカバレッジを定義した。
両ベンチマークの累積評価時間を100$\times$ speedupとすることで,カバレッジがエンドツーエンドの成功率と強く相関していることを検証する。
このフレームワークを用いることで、性能を維持しながらエージェントのレイテンシを低減するために、高い計算コストかドメイン固有の最適化が必要であることがわかった。
これに基づいて、MBSトレーニングデータ上でのプルーニングプログラムを最適化し、WorkArena L1で2.2$\times$高速なステップ毎のレイテンシを実現し、元の成功率の84\%を維持し、WebLinxでは3.1$\times$高速で89\%を維持します。
関連論文リスト
- A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - Luna-2: Scalable Single-Token Evaluation with Small Language Models [2.256035939593399]
リアルタイムガードレールは正確で安価で高速な評価を必要とする。
今日のデフォルトの LLM-as-a-judge (LLMAJ) は遅く、高価で、運用上非決定論的である。
本稿では,デコーダのみの小型言語モデル(SLM)を決定論的評価モデルに活用する新しいアーキテクチャであるLuna-2を提案する。
論文 参考訳(メタデータ) (2026-02-20T19:43:58Z) - DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。
WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文 参考訳(メタデータ) (2025-11-19T12:38:43Z) - Beyond Manually Designed Pruning Policies with Second-Level Performance Prediction: A Pruning Framework for LLMs [1.6327294840798465]
非均一な構造化ネットワークプルーニング手法は、冗長なチャネルやレイヤを排除することで、LLM(Large Language Model)のサイズを減らすことができる。
既存の一様でないメソッドは、手動で設計されたプルーニングポリシーに大きく依存している。
PPF(Predictive Pruning Framework)は,第2レベルの性能予測によって手作業による設計依存を解消する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T13:08:35Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains [2.1797343876622097]
強化学習(RL)の先行する言語モデル(LLM)には大きな利点があるが、かなりの計算コストが伴う。
本稿では,LCMをベースとした後方サンプリングのためのキャッシュ効率向上フレームワークを提案し,性能を向上しつつ,これらのコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-12T06:53:24Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。