論文の概要: WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
- arxiv url: http://arxiv.org/abs/2601.21872v1
- Date: Thu, 29 Jan 2026 15:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.944272
- Title: WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
- Title(参考訳): WebArbiter: Webエージェントのための原則的推論プロセスリワードモデル
- Authors: Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp,
- Abstract要約: 本稿では、報酬モデリングをテキスト生成として定式化するWebPRMであるWebArbiterを紹介する。
WebArbiterは、好みの判断で結論付ける構造化された正当化を生成し、タスク完了に最も寄与するアクションを識別する。
- 参考スコア(独自算出の注目度): 31.554790282560443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.
- Abstract(参考訳): Webエージェントは複雑なコンピュータタスクを自動化する大きな可能性を秘めている。
このような設定では、結果ベースの監視はスパースで遅延し、しばしば誤った軌跡を報い、推論時間スケーリングをサポートしない。
これはWebナビゲーションにProcess Reward Models (WebPRMs) を使うことを動機としているが、既存のアプローチには制限がある。
これらの課題に対処するため、WebArbiterは、報酬モデリングをテキスト生成として定式化し、好みの判断で結論付ける構造化された正当化を生成し、現在の文脈下でタスク完了に最も寄与するアクションを特定する、推論ファーストで原則を導出するWebPRMである。
蒸留の推論は、コヒーレントな原理誘導推論をモデルに装備し、強化学習は、評定を直接正当性で整列させることで教師のバイアスを補正し、より強力な一般化を可能にする。
WebPRMBenchは4つの多様なWeb環境にまたがる、リッチなタスクと高品質な嗜好アノテーションを備えた総合的なベンチマークである。
WebPRMBenchでは、WebArbiter-7Bが最強のベースラインであるGPT-5を9.1ポイント上回っている。
報酬誘導によるWebArena-Liteの軌道探索では、WebPRMの上位7.2ポイントを超え、実世界の複雑なWebタスクにおける堅牢性と実用的価値を強調している。
関連論文リスト
- It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - TGPO: Tree-Guided Preference Optimization for Robust Web Agent Reinforcement Learning [4.456860697635325]
強化学習による Web エージェントのトレーニングには,クレジット割り当ての誤り,アノテーションコストの禁止,パースペリティの報奨など,重要な課題が伴う。
我々のフレームワークにはプロセス・リワード・モデルが組み込まれており、サブゴールの進行、冗長性の検出、行動検証を通じて、細かな報酬を自動的に生成する。
Online-Mind2Webと我々の自己構築したC-WebShopデータセットの実験は、TGPOが既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-09-17T16:58:44Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。
このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。
我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文 参考訳(メタデータ) (2024-06-01T00:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。