論文の概要: Prune4Web: DOM Tree Pruning Programming for Web Agent
- arxiv url: http://arxiv.org/abs/2511.21398v1
- Date: Wed, 26 Nov 2025 13:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.12279
- Title: Prune4Web: DOM Tree Pruning Programming for Web Agent
- Title(参考訳): Prune4Web: WebエージェントのためのDOMツリー実行プログラミング
- Authors: Jiayuan Zhang, Kaiquan Chen, Zhihao Lu, Enshen Zhou, Qian Yu, Jing Zhang,
- Abstract要約: Prune4Webは、DOM処理をリソース集約型LLM読み込みから効率的なプログラムプルーニングに移行する新しいパラダイムである。
そこで我々は,Planner, Programmatic Filter, Grounderを協調的に最適化する,特殊なデータアノテーションパイプラインと2ターン対話訓練戦略を提案する。
- 参考スコア(独自算出の注目度): 20.59581294172181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web automation employs intelligent agents to execute high-level tasks by mimicking human interactions with web interfaces. Despite the capabilities of recent Large Language Model (LLM)-based web agents, navigating complex, real-world webpages efficiently remains a significant hurdle due to the prohibitively large size of Document Object Model (DOM) structures, often ranging from 10,000 to 100,000 tokens. Existing strategies typically rely on crude DOM truncation -- risking the loss of critical information -- or employ inefficient heuristics and separate ranking models, failing to achieve an optimal balance between precision and scalability. To address these challenges, we introduce Prune4Web, a novel paradigm that shifts DOM processing from resource-intensive LLM reading to efficient programmatic pruning. Central to our approach is DOM Tree Pruning Programming, where an LLM generates executable Python scoring scripts to dynamically filter DOM elements based on semantic cues from decomposed sub-tasks. This mechanism eliminates the need for LLMs to ingest raw, massive DOMs, instead delegating traversal and scoring to lightweight, interpretable programs. This methodology achieves a 25x to 50x reduction in candidate elements for grounding, thereby facilitating precise action localization while mitigating attention dilution. Furthermore, we propose a specialized data annotation pipeline and a two-turn dialogue training strategy that jointly optimizes the Planner, Programmatic Filter, and Grounder within a unified framework. Extensive experiments demonstrate state-of-the-art performance. Notably, on our low-level grounding task, Prune4Web dramatically improves accuracy from 46.8% to 88.28%, underscoring its efficacy in real-world web automation.
- Abstract(参考訳): Webオートメーションは、インテリジェントエージェントを使用して、Webインターフェースとの人間のインタラクションを模倣することで、ハイレベルなタスクを実行する。
最近のLarge Language Model (LLM)ベースのWebエージェントの能力にもかかわらず、複雑な現実世界のWebページを効率的にナビゲートすることは、非常に大きなドキュメントオブジェクトモデル(DOM)構造のために大きなハードルとなっている。
既存の戦略は、通常、粗末なDOMトランケーション(クリティカルな情報の損失を危険にさらす)、あるいは非効率的なヒューリスティックと異なるランキングモデルを採用し、精度とスケーラビリティの最適なバランスを達成できない。
これらの課題に対処するために,DOM 処理をリソース集約型 LLM 読み込みから効率的なプログラムプルーニングに移行する新しいパラダイムである Prune4Web を紹介した。
LLMは、分解されたサブタスクのセマンティックキューに基づいてDOM要素を動的にフィルタリングする実行可能なPythonスコアリングスクリプトを生成する。
このメカニズムにより、LLMが生の大量のDOMを取り込み、代わりにトラバーサルをデリゲートし、軽量で解釈可能なプログラムにスコアを付ける必要がなくなる。
この手法は、接地候補要素の25倍から50倍の減少を実現し、注意希釈を緩和しつつ、正確な行動局在化を容易にする。
さらに,Planner, Programmatic Filter, Grounderを統合フレームワーク内で協調的に最適化する,特殊なデータアノテーションパイプラインと2ターン対話訓練戦略を提案する。
大規模な実験は最先端のパフォーマンスを示している。
特に、我々の低レベルグラウンドタスクでは、Prune4Webは46.8%から88.28%に劇的に精度を向上し、現実世界のウェブ自動化におけるその有効性を強調している。
関連論文リスト
- FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data [18.129300915372415]
大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。
汎用 LLM は、HTML のような特別な Web コンテキストを理解するために特別に訓練されていない。
我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
論文 参考訳(メタデータ) (2024-11-22T15:26:23Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。