論文の概要: WebOperator: Action-Aware Tree Search for Autonomous Agents in Web Environment
- arxiv url: http://arxiv.org/abs/2512.12692v1
- Date: Sun, 14 Dec 2025 13:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.3851
- Title: WebOperator: Action-Aware Tree Search for Autonomous Agents in Web Environment
- Title(参考訳): WebOperator: Web環境における自律エージェントのためのアクション対応ツリー検索
- Authors: Mahir Labib Dihan, Tanzima Hashem, Mohammed Eunus Ali, Md Rizwan Parvez,
- Abstract要約: LLMをベースとしたエージェントは、現在の観察に基づいてのみ行動を選択する、欲張りのステップバイステップで動作する。
明確な追跡機構がなければ、エージェントはエラーの修正や代替経路の体系的な探索に苦労する。
我々は、信頼性の高いバックトラックと戦略的探索を可能にする、ツリー検索フレームワークであるWebOperatorを紹介した。
- 参考スコア(独自算出の注目度): 11.364916354844938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents often operate in a greedy, step-by-step manner, selecting actions solely based on the current observation without considering long-term consequences or alternative paths. This lack of foresight is particularly problematic in web environments, which are only partially observable-limited to browser-visible content (e.g., DOM and UI elements)-where a single misstep often requires complex and brittle navigation to undo. Without an explicit backtracking mechanism, agents struggle to correct errors or systematically explore alternative paths. Tree-search methods provide a principled framework for such structured exploration, but existing approaches lack mechanisms for safe backtracking, making them prone to unintended side effects. They also assume that all actions are reversible, ignoring the presence of irreversible actions-limitations that reduce their effectiveness in realistic web tasks. To address these challenges, we introduce WebOperator, a tree-search framework that enables reliable backtracking and strategic exploration. Our method incorporates a best-first search strategy that ranks actions by both reward estimates and safety considerations, along with a robust backtracking mechanism that verifies the feasibility of previously visited paths before replaying them, preventing unintended side effects. To further guide exploration, WebOperator generates action candidates from multiple, varied reasoning contexts to ensure diverse and robust exploration, and subsequently curates a high-quality action set by filtering out invalid actions pre-execution and merging semantically equivalent ones. Experimental results on WebArena and WebVoyager demonstrate the effectiveness of WebOperator. On WebArena, WebOperator achieves a state-of-the-art 54.6% success rate with gpt-4o, underscoring the critical advantage of integrating strategic foresight with safe execution.
- Abstract(参考訳): LLMをベースとしたエージェントは、しばしば欲張りのステップバイステップで動作し、長期的な結果や代替経路を考慮せずに、現在の観察に基づいてアクションを選択する。
このような監視の欠如は、ブラウザ可視コンテンツ(DOMやUI要素など)に部分的に制限されているWeb環境では特に問題となる。
明確な追跡機構がなければ、エージェントはエラーの修正や代替経路の体系的な探索に苦労する。
Tree-searchメソッドはそのような構造化された探索のための原則的なフレームワークを提供するが、既存のアプローチでは安全なバックトラックのメカニズムが欠如しており、意図しない副作用が生じる傾向にある。
また、すべてのアクションは可逆的であり、現実的なWebタスクにおける効率を低下させる不可逆的なアクション制限の存在を無視していると仮定する。
これらの課題に対処するために、信頼性の高いバックトラックと戦略的探索を可能にするツリー検索フレームワークであるWebOperatorを紹介します。
提案手法は,報酬推定と安全考慮の両方で行動のランク付けを行う最優先の探索戦略と,事前に訪れた経路を再生する前に有効性を確認し,意図しない副作用を防止できる頑健なバックトラック機構を組み込んだ。
探索をさらにガイドするために、WebOperatorは、多種多様な推論コンテキストからアクション候補を生成して、多様で堅牢な探索を保証する。
WebArenaとWebVoyagerの実験結果は、WebOperatorの有効性を実証している。
WebArenaでは、WebOperatorがgpt-4oで54.6%の成功率を達成した。
関連論文リスト
- Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - Mind the Web: The Security of Web Use Agents [11.075673765065103]
本稿では,Webページに悪意のあるコンテンツを埋め込むことで,攻撃者がWeb利用エージェントを利用する方法を示す。
本稿では,悪質なコマンドをタスクガイダンスとしてフレーム化するタスクアラインインジェクション手法を提案する。
本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:59:55Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - WebRollback: Enhancing Web Agents with Explicit Rollback Mechanisms [52.942566473658054]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。