論文の概要: WorkForceAgent-R1: Incentivizing Reasoning Capability in LLM-based Web Agents via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.22942v1
- Date: Wed, 28 May 2025 23:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.586101
- Title: WorkForceAgent-R1: Incentivizing Reasoning Capability in LLM-based Web Agents via Reinforcement Learning
- Title(参考訳): WorkForceAgent-R1:強化学習によるLLMベースのWebエージェントにおける推論能力のインセンティブ化
- Authors: Yuchen Zhuang, Di Jin, Jiaao Chen, Wenqi Shi, Hanrui Wang, Chao Zhang,
- Abstract要約: ルールベースのR1スタイル強化学習フレームワークを用いて学習したLLMベースのWebエージェントであるWorkForceAgent-R1を紹介する。
我々は、出力形式への固執とアクションの正当性の両方を評価する構造付き報酬関数を用いて、WorkForceAgent-R1が頑健な中間推論を暗黙的に学習できるようにする。
WorkArenaベンチマークの実験では、WorkForceAgent-R1はSFTのベースラインを10.26-16.59%上回っている。
- 参考スコア(独自算出の注目度): 31.455378036113228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs)-empowered web agents enables automating complex, real-time web navigation tasks in enterprise environments. However, existing web agents relying on supervised fine-tuning (SFT) often struggle with generalization and robustness due to insufficient reasoning capabilities when handling the inherently dynamic nature of web interactions. In this study, we introduce WorkForceAgent-R1, an LLM-based web agent trained using a rule-based R1-style reinforcement learning framework designed explicitly to enhance single-step reasoning and planning for business-oriented web navigation tasks. We employ a structured reward function that evaluates both adherence to output formats and correctness of actions, enabling WorkForceAgent-R1 to implicitly learn robust intermediate reasoning without explicit annotations or extensive expert demonstrations. Extensive experiments on the WorkArena benchmark demonstrate that WorkForceAgent-R1 substantially outperforms SFT baselines by 10.26-16.59%, achieving competitive performance relative to proprietary LLM-based agents (gpt-4o) in workplace-oriented web navigation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したWebエージェントは,エンタープライズ環境における複雑なリアルタイムWebナビゲーションタスクを自動化する。
しかし、既存のWebエージェントは、教師付き微調整(SFT)に依存しており、Webインタラクションの本質的に動的な性質を扱う際に、推論能力が不十分なため、一般化と堅牢性に苦しむことが多い。
本研究では、ルールベースのR1スタイル強化学習フレームワークを用いて、ビジネス指向のWebナビゲーションタスクの単一ステップ推論と計画を強化することを目的とした、LLMベースのWebエージェントであるWorkForceAgent-R1を紹介する。
我々は、出力形式への順守とアクションの正当性の両方を評価する構造化された報酬関数を用いており、WorkForceAgent-R1は明示的なアノテーションや広範囲な専門家によるデモンストレーションなしに、頑健な中間推論を暗黙的に学習することができる。
WorkArenaベンチマークの大規模な実験により、WorkForceAgent-R1はSFTのベースラインを10.26-16.59%上回り、職場向けウェブナビゲーションタスクにおけるLLMベースのエージェント(gpt-4o)と比較して競争力のある性能を達成した。
関連論文リスト
- WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [37.89715280583421]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。
WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。
In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文 参考訳(メタデータ) (2025-05-22T09:07:43Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Agent Workflow Memory [71.81385627556398]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。
AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。
オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文 参考訳(メタデータ) (2024-09-11T17:21:00Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。