Fugu-MT 論文翻訳(概要): Prune4Web: DOM Tree Pruning Programming for Web Agent

論文の概要: Prune4Web: DOM Tree Pruning Programming for Web Agent

arxiv url: http://arxiv.org/abs/2511.21398v1
Date: Wed, 26 Nov 2025 13:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-27 18:37:59.12279
Title: Prune4Web: DOM Tree Pruning Programming for Web Agent
Title（参考訳）: Prune4Web: WebエージェントのためのDOMツリー実行プログラミング
Authors: Jiayuan Zhang, Kaiquan Chen, Zhihao Lu, Enshen Zhou, Qian Yu, Jing Zhang,
Abstract要約: Prune4Webは、DOM処理をリソース集約型LLM読み込みから効率的なプログラムプルーニングに移行する新しいパラダイムである。そこで我々は,Planner, Programmatic Filter, Grounderを協調的に最適化する,特殊なデータアノテーションパイプラインと2ターン対話訓練戦略を提案する。
参考スコア（独自算出の注目度）: 20.59581294172181
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Web automation employs intelligent agents to execute high-level tasks by mimicking human interactions with web interfaces. Despite the capabilities of recent Large Language Model (LLM)-based web agents, navigating complex, real-world webpages efficiently remains a significant hurdle due to the prohibitively large size of Document Object Model (DOM) structures, often ranging from 10,000 to 100,000 tokens. Existing strategies typically rely on crude DOM truncation -- risking the loss of critical information -- or employ inefficient heuristics and separate ranking models, failing to achieve an optimal balance between precision and scalability. To address these challenges, we introduce Prune4Web, a novel paradigm that shifts DOM processing from resource-intensive LLM reading to efficient programmatic pruning. Central to our approach is DOM Tree Pruning Programming, where an LLM generates executable Python scoring scripts to dynamically filter DOM elements based on semantic cues from decomposed sub-tasks. This mechanism eliminates the need for LLMs to ingest raw, massive DOMs, instead delegating traversal and scoring to lightweight, interpretable programs. This methodology achieves a 25x to 50x reduction in candidate elements for grounding, thereby facilitating precise action localization while mitigating attention dilution. Furthermore, we propose a specialized data annotation pipeline and a two-turn dialogue training strategy that jointly optimizes the Planner, Programmatic Filter, and Grounder within a unified framework. Extensive experiments demonstrate state-of-the-art performance. Notably, on our low-level grounding task, Prune4Web dramatically improves accuracy from 46.8% to 88.28%, underscoring its efficacy in real-world web automation.
Abstract（参考訳）: Webオートメーションは、インテリジェントエージェントを使用して、Webインターフェースとの人間のインタラクションを模倣することで、ハイレベルなタスクを実行する。最近のLarge Language Model (LLM)ベースのWebエージェントの能力にもかかわらず、複雑な現実世界のWebページを効率的にナビゲートすることは、非常に大きなドキュメントオブジェクトモデル(DOM)構造のために大きなハードルとなっている。既存の戦略は、通常、粗末なDOMトランケーション(クリティカルな情報の損失を危険にさらす)、あるいは非効率的なヒューリスティックと異なるランキングモデルを採用し、精度とスケーラビリティの最適なバランスを達成できない。これらの課題に対処するために,DOM 処理をリソース集約型 LLM 読み込みから効率的なプログラムプルーニングに移行する新しいパラダイムである Prune4Web を紹介した。 LLMは、分解されたサブタスクのセマンティックキューに基づいてDOM要素を動的にフィルタリングする実行可能なPythonスコアリングスクリプトを生成する。このメカニズムにより、LLMが生の大量のDOMを取り込み、代わりにトラバーサルをデリゲートし、軽量で解釈可能なプログラムにスコアを付ける必要がなくなる。この手法は、接地候補要素の25倍から50倍の減少を実現し、注意希釈を緩和しつつ、正確な行動局在化を容易にする。さらに,Planner, Programmatic Filter, Grounderを統合フレームワーク内で協調的に最適化する,特殊なデータアノテーションパイプラインと2ターン対話訓練戦略を提案する。大規模な実験は最先端のパフォーマンスを示している。特に、我々の低レベルグラウンドタスクでは、Prune4Webは46.8%から88.28%に劇的に精度を向上し、現実世界のウェブ自動化におけるその有効性を強調している。

関連論文リスト

Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文参考訳（メタデータ） (2025-11-23T03:59:14Z)
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。 FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文参考訳（メタデータ） (2025-10-03T17:41:30Z)
WALT: Web Agents that Learn Tools [66.73502484310121]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。 WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。 VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文参考訳（メタデータ） (2025-10-01T23:41:47Z)
ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-05-21T08:36:18Z)
ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data [18.129300915372415]
大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。汎用 LLM は、HTML のような特別な Web コンテキストを理解するために特別に訓練されていない。我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
論文参考訳（メタデータ） (2024-11-22T15:26:23Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文参考訳（メタデータ） (2024-09-23T18:06:32Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文参考訳（メタデータ） (2023-07-24T14:56:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。