Fugu-MT 論文翻訳(概要): Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

論文の概要: Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

arxiv url: http://arxiv.org/abs/2505.15277v1
Date: Wed, 21 May 2025 08:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.402093
Title: Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
Title（参考訳）: Web-Shepherd: Webエージェントの強化のためのPRMの改善
Authors: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo,
Abstract要約: ステップレベルのWebナビゲーショントラジェクトリを評価するために,Web-Shepherdと呼ばれる最初のプロセス報酬モデル(PRM)を提案する。実験では,WebRewardBenchでGPT-4oを使用する場合と比較して,Web-Shepherdの精度は約30ポイント向上した。
参考スコア（独自算出の注目度）: 12.928605558358464
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Web navigation is a unique domain that can automate many repetitive real-life tasks and is challenging as it requires long-horizon sequential decision making beyond typical multimodal large language model (MLLM) tasks. Yet, specialized reward models for web navigation that can be utilized during both training and test-time have been absent until now. Despite the importance of speed and cost-effectiveness, prior works have utilized MLLMs as reward models, which poses significant constraints for real-world deployment. To address this, in this work, we propose the first process reward model (PRM) called Web-Shepherd which could assess web navigation trajectories in a step-level. To achieve this, we first construct the WebPRM Collection, a large-scale dataset with 40K step-level preference pairs and annotated checklists spanning diverse domains and difficulty levels. Next, we also introduce the WebRewardBench, the first meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe that our Web-Shepherd achieves about 30 points better accuracy compared to using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve 10.9 points better performance, in 10 less cost compared to using GPT-4o-mini as the verifier. Our model, dataset, and code are publicly available at LINK.
Abstract（参考訳）: Webナビゲーションは、多くの反復的なリアルタイムタスクを自動化できるユニークなドメインであり、典型的なマルチモーダルな大規模言語モデル(MLLM)タスクを超えて、長い水平なシーケンシャルな決定を必要とするため、難しい。しかし、トレーニングとテストタイムの両方で利用できるウェブナビゲーションの特別報酬モデルがこれまで存在していなかった。速度とコスト効率の重要性にもかかわらず、先行研究ではMLLMを報酬モデルとして利用しており、現実世界の展開にかなりの制約が課されている。そこで本研究では,Web ナビゲーショントラジェクトリを段階的に評価できる Web-Shepherd というプロセス報酬モデル (PRM) を提案する。そこで我々はまず,40Kステップレベルの選好ペアと,さまざまなドメインと難易度にまたがる注釈付きチェックリストを備えた大規模データセットであるWebPRM Collectionを構築した。次に、PRMを評価するための最初のメタ評価ベンチマークであるWebRewardBenchを紹介します。実験では,WebRewardBenchでGPT-4oを使用する場合と比較して,Web-Shepherdの精度は約30ポイント向上した。さらに, GPT-4o-mini をポリシーとして Web-Shepherd を検証として WebArena-lite 上でテストする場合, 検証器として GPT-4o-mini を使用する場合に比べて10.9 ポイントの性能が 10.9 ポイント向上する。私たちのモデル、データセット、コードはLINKで公開されています。

関連論文リスト

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents [31.554790282560443]
本稿では、報酬モデリングをテキスト生成として定式化するWebPRMであるWebArbiterを紹介する。 WebArbiterは、好みの判断で結論付ける構造化された正当化を生成し、タスク完了に最も寄与するアクションを識別する。
論文参考訳（メタデータ） (2026-01-29T15:39:50Z)
WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文参考訳（メタデータ） (2025-01-13T18:58:07Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文参考訳（メタデータ） (2024-04-04T17:58:40Z)
Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文参考訳（メタデータ） (2024-03-05T17:56:27Z)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。 GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文参考訳（メタデータ） (2024-01-25T03:33:18Z)
GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文参考訳（メタデータ） (2024-01-03T08:33:09Z)
AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文参考訳（メタデータ） (2023-10-20T11:10:14Z)
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文参考訳（メタデータ） (2023-07-24T14:56:30Z)
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences [32.70333236055738]
WebGLMは、一般言語モデル(GLM)に基づくWebによる質問応答システムである LLM強化レトリバー、ブートストラップ付きジェネレータ、人間の嗜好認識スコアラーの戦略を用いてWebGLMを開発する。
論文参考訳（メタデータ） (2023-06-13T16:57:53Z)
Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文参考訳（メタデータ） (2023-05-19T17:44:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。