論文の概要: Web Agents Should Adopt the Plan-Then-Execute Paradigm
- arxiv url: http://arxiv.org/abs/2605.14290v1
- Date: Thu, 14 May 2026 02:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.588666
- Title: Web Agents Should Adopt the Plan-Then-Execute Paradigm
- Title(参考訳): WebエージェントはPlan-Then-Execute Paradigmを採用するべきだ
- Authors: Julien Piet, Annabella Chow, Yiwei Hou, Muxi Lyu, Sylvie Venuto, Jinhao Zhu, Raluca Ada Popa, David Wagner,
- Abstract要約: 我々は、WebエージェントがデフォルトでReActではなく plan-then-executeにすべきであると主張している。
信頼できないデータは、事前に定義された実行グラフ内の値やブランチに影響を与える可能性がある。
我々は、Web上でプラン-then-executeを採用する上での主要な障壁を特定します。
- 参考スコア(独自算出の注目度): 9.920367562132336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ReAct has become the default architecture across LLM agents, and many existing web agents follow this paradigm. We argue that it is the wrong default for web agents. Instead, web agents should default to plan-then-execute: commit to a task-specific program before observing runtime web content, then execute it. The reason is that web content mixes inputs from many parties. An e-commerce product page may combine a seller's listing, customer reviews and sponsored advertisements. Under ReAct, all of this content flows into the model when deciding on the next action, creating a direct path for prompt injections to steer the agent's control flow. Plan-then-execute changes this boundary: untrusted data may influence values or branches inside a predefined execution graph, but it cannot redefine the user task or cause the model to synthesize new actions at runtime. We analyze WebArena, a popular web agent benchmark, and find that all tasks are compatible with plan-then-execute, while 80% can be completed with a purely programmatic plan, without any runtime LLM subroutine. We identify the main barrier to adopting plan-then-execute on the web: For it to work well, tools must map cleanly to semantic actions, with effects known before execution, so agents have enough information to plan. The web does not naturally expose that interface. Browser tools such as click, type, and scroll have page-dependent meanings. Planning at this layer is near-sighted: the agent can only see actions on the current page, and later actions appear only after it acts. Closing this gap requires typed interfaces that turn website interactions from clicks and keystrokes to task-level operations. This is an infrastructure problem, not a modeling problem. Web tasks do not need reactivity by default; they need typed, complete, auditable website APIs.
- Abstract(参考訳): ReActはLLMエージェントのデフォルトアーキテクチャとなり、多くの既存のWebエージェントがこのパラダイムに従っている。
私たちは、Webエージェントのデフォルトが間違っていると論じています。
代わりに、Webエージェントはデフォルトで plan-then-execute: 実行中のWebコンテンツを観察する前にタスク固有のプログラムにコミットし、実行します。
理由は、Webコンテンツは多くの関係者からのインプットが混在しているからだ。
eコマース製品ページは、販売者のリスト、顧客レビュー、スポンサー付き広告を組み合わせることができる。
ReActでは、これらのコンテンツは次のアクションを決定するときにモデルに流れ込み、エージェントの制御フローを操縦するためにインジェクションをプロンプトするための直接パスを作成します。
信頼されていないデータは、事前に定義された実行グラフ内の値やブランチに影響を与える可能性があるが、ユーザータスクを再定義したり、実行時にモデルに新しいアクションを合成させることはできない。
我々は、人気のあるWebエージェントベンチマークであるWebArenaを分析し、すべてのタスクがプラン-then-executeと互換性があるのに対して、80%は、ランタイムのLLMサブルーチンなしで、純粋にプログラム的なプランで完了可能であることを発見した。
うまく機能するためには、ツールはセマンティックアクションにきれいにマッピングされなければなりません。
Webはそのインターフェースを自然に公開しない。
クリック、タイプ、スクロールなどのブラウザツールはページ依存の意味を持つ。
エージェントは現在のページでのみアクションを見ることができ、後のアクションはそれが動作した後にのみ現れる。
このギャップを埋めるには、Webサイトのインタラクションをクリックやキーストロークからタスクレベルの操作に変換する、型付きインターフェースが必要です。
これはインフラストラクチャの問題であり、モデリングの問題ではありません。
Webタスクはデフォルトではリアクティビティを必要としない。
関連論文リスト
- Atomicity for Agents: Exposing, Exploiting, and Mitigating TOCTOU Vulnerabilities in Browser-Use Agents [15.381306470663695]
ブラウザ利用エージェントにおけるTOCTOU脆弱性に関する大規模な実証的研究を行った。
動的または敵対的なWebコンテンツは、意図しないアクションを誘発するためにこのウィンドウを利用することができる。
我々は、事前実行検証に基づく軽量な緩和を設計する。
論文 参考訳(メタデータ) (2026-02-28T05:25:03Z) - EmbeWebAgent: Embedding Web Agents into Any Customized UI [3.034887612600091]
EmbeWebAgentはエージェントを直接既存のUIに埋め込むフレームワークです。
プリミティブからハイレベルコンポジットまで、混合粒度作用をサポートする。
私たちのデモでは、ライブUI設定で最小限の再適合と堅牢なマルチステップ動作を示しています。
論文 参考訳(メタデータ) (2026-02-16T15:59:56Z) - SPILLage: Agentic Oversharing on the Web [13.930845226612767]
LLMはオープンウェブ全体でユーザーのタスクを自動化し始めており、しばしばEメールやカレンダーなどのユーザーリソースにアクセスしている。
私たちは、Webエージェントが、ライブWebサイト全体にわたってタスクを代行するときに、どのようにユーザーリソースを扱うのかを尋ねる。
本稿では,Web上のアクションのエージェントトレースを通じて,非意図的なタスク関連ユーザ情報の開示を行うNatural Agentic Over sharingを形式化する。
論文 参考訳(メタデータ) (2026-02-13T23:02:50Z) - WALT: Web Agents that Learn Tools [66.73502484310121]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。
WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。
VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文 参考訳(メタデータ) (2025-10-01T23:41:47Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウザエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。