論文の概要: World-Model-Augmented Web Agents with Action Correction
- arxiv url: http://arxiv.org/abs/2602.15384v1
- Date: Tue, 17 Feb 2026 06:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.999954
- Title: World-Model-Augmented Web Agents with Action Correction
- Title(参考訳): 行動補正を施したワールドモデルWebエージェント
- Authors: Zhouzhou Shen, Xueyu Hu, Xiyun Li, Tianqing Fang, Juncheng Li, Shengyu Zhang,
- Abstract要約: モデルコラボレーション,結果シミュレーション,フィードバック駆動型行動改善を統合した Web エージェント WAC を提案する。
WACはVisualWebArenaで1.8%、Online-Mind2Webで1.3%という絶対的な利益を得ている。
- 参考スコア(独自算出の注目度): 20.6992333559494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents based on large language models have demonstrated promising capability in automating web tasks. However, current web agents struggle to reason out sensible actions due to the limitations of predicting environment changes, and might not possess comprehensive awareness of execution risks, prematurely performing risky actions that cause losses and lead to task failure. To address these challenges, we propose WAC, a web agent that integrates model collaboration, consequence simulation, and feedback-driven action refinement. To overcome the cognitive isolation of individual models, we introduce a multi-agent collaboration process that enables an action model to consult a world model as a web-environment expert for strategic guidance; the action model then grounds these suggestions into executable actions, leveraging prior knowledge of environmental state transition dynamics to enhance candidate action proposal. To achieve risk-aware resilient task execution, we introduce a two-stage deduction chain. A world model, specialized in environmental state transitions, simulates action outcomes, which a judge model then scrutinizes to trigger action corrective feedback when necessary. Experiments show that WAC achieves absolute gains of 1.8% on VisualWebArena and 1.3% on Online-Mind2Web.
- Abstract(参考訳): 大規模言語モデルに基づくWebエージェントは、Webタスクの自動化に有望な能力を示した。
しかし、現在のWebエージェントは、環境変化の予測に限界があるため、合理的な行動の解明に苦慮しており、実行リスクを包括的に認識していない可能性がある。
これらの課題に対処するために、モデルコラボレーション、結果シミュレーション、フィードバック駆動型アクションリファインメントを統合したWebエージェントWACを提案する。
個別モデルの認知的分離を克服するために,アクションモデルがWeb環境の専門家として世界モデルに相談して戦略指導を行うためのマルチエージェント協調プロセスを導入する。
リスク対応型レジリエントなタスク実行を実現するために,2段階の推論チェーンを導入する。
環境状態遷移に特化した世界モデルは行動結果をシミュレートし、裁判官モデルは必要に応じて行動修正フィードバックをトリガーするために精査する。
実験の結果、WACはVisualWebArenaで1.8%、Online-Mind2Webで1.3%という絶対的なゲインを達成した。
関連論文リスト
- OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents [31.554790282560443]
本稿では、報酬モデリングをテキスト生成として定式化するWebPRMであるWebArbiterを紹介する。
WebArbiterは、好みの判断で結論付ける構造化された正当化を生成し、タスク完了に最も寄与するアクションを識別する。
論文 参考訳(メタデータ) (2026-01-29T15:39:50Z) - WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis [34.998277998052444]
本稿では,軌道合成と学習のための新しいフレームワークであるWebSynthesisを提案する。
本稿では,WebSynthesis を用いて訓練したエージェントが,大規模実世界のデータに対してトレーニングしたモデルに匹敵する,あるいはそれ以上の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-07-06T12:31:10Z) - Situationally-Aware Dynamics Learning [57.698553219660376]
隠れ状態表現のオンライン学習のための新しいフレームワークを提案する。
提案手法は、非観測パラメータが遷移力学と報酬構造の両方に与える影響を明示的にモデル化する。
シミュレーションと実世界の両方の実験は、データ効率、ポリシー性能、安全で適応的なナビゲーション戦略の出現を著しく改善した。
論文 参考訳(メタデータ) (2025-05-26T06:40:11Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [82.27842884709378]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - Learning to Generate All Feasible Actions [4.333208181196761]
アクションマッピングは、学習プロセスを2つのステップに分割する新しいアプローチである。
本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことで、実現可能性部分に焦点を当てる。
エージェントが接続不能な実行可能なアクションセット間でアクションを生成する能力を示す。
論文 参考訳(メタデータ) (2023-01-26T23:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。