論文の概要: WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent
- arxiv url: http://arxiv.org/abs/2604.17821v2
- Date: Tue, 21 Apr 2026 03:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.932485
- Title: WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent
- Title(参考訳): WebUncertainty: 自律的なWebエージェントのためのデュアルレベル不確実性駆動計画と推論
- Authors: Lingfeng Zhang, Yongan Sun, Jinpeng Hu, Hui Ma, Yang Ying, Kuien Liu, Zenglin Shi, Meng Wang,
- Abstract要約: WebUncertaintyは、計画と推論において二重レベルの不確実性に取り組むように設計された新しいフレームワークである。
我々は、WebUncertaintyが最先端のベースラインよりも優れたパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 17.220039925022196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have empowered autonomous web agents to execute natural language instructions directly on real-world webpages. However, existing agents often struggle with complex tasks involving dynamic interactions and long-horizon execution due to rigid planning strategies and hallucination-prone reasoning. To address these limitations, we propose WebUncertainty, a novel autonomous agent framework designed to tackle dual-level uncertainty in planning and reasoning. Specifically, we design a Task Uncertainty-Driven Adaptive Planning Mechanism that adaptively selects planning modes to navigate unknown environments. Furthermore, we introduce an Action Uncertainty-Driven Monte Carlo tree search (MCTS) Reasoning Mechanism. This mechanism incorporates the Confidence-induced Action Uncertainty (ConActU) strategy to quantify both aleatoric uncertainty (AU) and epistemic uncertainty (EU), thereby optimizing the search process and guiding robust decision-making. Experimental results on the WebArena and WebVoyager benchmarks demonstrate that WebUncertainty achieves superior performance compared to state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、現実のWebページ上で自然言語命令を直接実行する自律型Webエージェントに力を与えている。
しかし、既存のエージェントは、厳格な計画戦略と幻覚が原因の推論のために、動的相互作用や長期の水平実行を含む複雑なタスクに悩まされることが多い。
これらの制約に対処するために、計画と推論における二重レベル不確実性に対処するために設計された、新しい自律エージェントフレームワークであるWebUncertaintyを提案する。
具体的には、未知環境をナビゲートする計画モードを適応的に選択するタスク不確実性駆動適応計画機構を設計する。
さらに,動作不確実性駆動型モンテカルロ木探索(MCTS)推論機構を導入する。
このメカニズムは、信頼性によって引き起こされる行動不確実性(ConActU)戦略を取り入れ、アレタリック不確実性(AU)とてんかん不確実性(EU)の両方を定量化し、探索プロセスを最適化し、堅牢な意思決定を導く。
WebArenaとWebVoyagerベンチマークの実験結果は、WebUncertaintyが最先端のベースラインよりも優れたパフォーマンスを実現していることを示している。
関連論文リスト
- World-Model-Augmented Web Agents with Action Correction [20.6992333559494]
モデルコラボレーション,結果シミュレーション,フィードバック駆動型行動改善を統合した Web エージェント WAC を提案する。
WACはVisualWebArenaで1.8%、Online-Mind2Webで1.3%という絶対的な利益を得ている。
論文 参考訳(メタデータ) (2026-02-17T06:37:31Z) - Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation [50.406803870992974]
Plan-MCTSは、探索を意味的なPlan Spaceに移行することでWebナビゲーションを再構築するフレームワークである。
Plan-MCTSは最先端の性能を達成し、タスク効率と探索効率を向上した現在の手法を超越している。
論文 参考訳(メタデータ) (2026-02-15T10:24:45Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Assured Autonomy: How Operations Research Powers and Orchestrates Generative AI Systems [18.881800772626427]
生成モデルは、実現可能性、分散シフトに対する堅牢性、ストレステストを提供するメカニズムと組み合わせない限り、運用領域で脆弱である可能性がある、と我々は主張する。
我々は,運用研究に根ざした自律性確保のための概念的枠組みを開発する。
これらの要素は、安全クリティカルで信頼性に敏感な運用領域における自律性を保証するための研究アジェンダを定義する。
論文 参考訳(メタデータ) (2025-12-30T04:24:06Z) - Cognitive Duality for Adaptive Web Agents [3.0069922338220825]
本稿では,システム1とシステム2の認知過程を高速に分解する原理を提案する。
高速直感的な処理とタスクの複雑さに基づいた意図的な推論を適応的に切り替えるモジュール型エージェントアーキテクチャであるCogniWebに,このフレームワークを実装した。
論文 参考訳(メタデータ) (2025-08-07T07:05:22Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - SPADE: Enhancing Adaptive Cyber Deception Strategies with Generative AI and Structured Prompt Engineering [0.17999333451993949]
本研究では、ジェネレーティブAI(GenAI)モデルを利用して、適応型サイバー詐欺対策の開発を自動化する。
我々は,大規模言語モデルが適応的騙しにもたらす固有の課題に対処するために,体系的フレームワーク(SPADE)を導入する。
論文 参考訳(メタデータ) (2025-01-01T19:44:30Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration [42.8636989730348]
既存のLLMベースのWebエージェントは、特定の州や行動に特有の厳格で専門家が設計したポリシーに依存している。
人間は未知を探索し、戦略を継続的に順応し、探索を通じてあいまいさを解消することで優れる。
我々は,モンテカルロ木探索(MCTS)を改良し,複雑なWeb環境をよりよく扱うマルチエージェントシステムであるWebPilotを開発した。
論文 参考訳(メタデータ) (2024-08-28T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。