論文の概要: Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
- arxiv url: http://arxiv.org/abs/2505.15277v1
- Date: Wed, 21 May 2025 08:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.402093
- Title: Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
- Title(参考訳): Web-Shepherd: Webエージェントの強化のためのPRMの改善
- Authors: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo,
- Abstract要約: ステップレベルのWebナビゲーショントラジェクトリを評価するために,Web-Shepherdと呼ばれる最初のプロセス報酬モデル(PRM)を提案する。
実験では,WebRewardBenchでGPT-4oを使用する場合と比較して,Web-Shepherdの精度は約30ポイント向上した。
- 参考スコア(独自算出の注目度): 12.928605558358464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web navigation is a unique domain that can automate many repetitive real-life tasks and is challenging as it requires long-horizon sequential decision making beyond typical multimodal large language model (MLLM) tasks. Yet, specialized reward models for web navigation that can be utilized during both training and test-time have been absent until now. Despite the importance of speed and cost-effectiveness, prior works have utilized MLLMs as reward models, which poses significant constraints for real-world deployment. To address this, in this work, we propose the first process reward model (PRM) called Web-Shepherd which could assess web navigation trajectories in a step-level. To achieve this, we first construct the WebPRM Collection, a large-scale dataset with 40K step-level preference pairs and annotated checklists spanning diverse domains and difficulty levels. Next, we also introduce the WebRewardBench, the first meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe that our Web-Shepherd achieves about 30 points better accuracy compared to using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve 10.9 points better performance, in 10 less cost compared to using GPT-4o-mini as the verifier. Our model, dataset, and code are publicly available at LINK.
- Abstract(参考訳): Webナビゲーションは、多くの反復的なリアルタイムタスクを自動化できるユニークなドメインであり、典型的なマルチモーダルな大規模言語モデル(MLLM)タスクを超えて、長い水平なシーケンシャルな決定を必要とするため、難しい。
しかし、トレーニングとテストタイムの両方で利用できるウェブナビゲーションの特別報酬モデルがこれまで存在していなかった。
速度とコスト効率の重要性にもかかわらず、先行研究ではMLLMを報酬モデルとして利用しており、現実世界の展開にかなりの制約が課されている。
そこで本研究では,Web ナビゲーショントラジェクトリを段階的に評価できる Web-Shepherd というプロセス報酬モデル (PRM) を提案する。
そこで我々はまず,40Kステップレベルの選好ペアと,さまざまなドメインと難易度にまたがる注釈付きチェックリストを備えた大規模データセットであるWebPRM Collectionを構築した。
次に、PRMを評価するための最初のメタ評価ベンチマークであるWebRewardBenchを紹介します。
実験では,WebRewardBenchでGPT-4oを使用する場合と比較して,Web-Shepherdの精度は約30ポイント向上した。
さらに, GPT-4o-mini をポリシーとして Web-Shepherd を検証として WebArena-lite 上でテストする場合, 検証器として GPT-4o-mini を使用する場合に比べて10.9 ポイントの性能が 10.9 ポイント向上する。
私たちのモデル、データセット、コードはLINKで公開されています。
関連論文リスト
- GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。
本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文 参考訳(メタデータ) (2024-01-03T08:33:09Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。