論文の概要: WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.02337v1
- Date: Mon, 04 Nov 2024 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:54.820533
- Title: WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
- Title(参考訳): WebRL: 自己進化型オンラインカリキュラム強化学習によるLLM Webエージェントの学習
- Authors: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong,
- Abstract要約: 大規模言語モデル(LLM)は、特にWebベースのタスクにおいて、自律エージェントとして顕著な可能性を示している。
本稿では,オープン LLM を用いた高性能 Web エージェントの学習を目的とした,自己進化型オンラインカリキュラム強化学習フレームワーク WebRL を紹介する。
オープンなLlama-3.1およびGLM-4モデルをWebエージェントに変換するためにWebRLを適用した。
- 参考スコア(独自算出の注目度): 30.55645082163579
- License:
- Abstract: Large language models (LLMs) have shown remarkable potential as autonomous agents, particularly in web-based tasks. However, existing LLM web agents heavily rely on expensive proprietary LLM APIs, while open LLMs lack the necessary decision-making capabilities. This paper introduces WebRL, a self-evolving online curriculum reinforcement learning framework designed to train high-performance web agents using open LLMs. WebRL addresses three key challenges in building LLM web agents, including the scarcity of training tasks, sparse feedback signals, and policy distribution drift in online learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4 models into proficient web agents. On WebArena-Lite, WebRL improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B. These open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's effectiveness in bridging the gap between open and proprietary LLM-based web agents, paving the way for more accessible and powerful autonomous web interaction systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にWebベースのタスクにおいて、自律エージェントとして顕著な可能性を示している。
しかし、既存の LLM Web エージェントは高価な LLM API に依存しているが、オープンな LLM には必要な意思決定能力がない。
本稿では,オープン LLM を用いた高性能 Web エージェントの学習を目的とした,自己進化型オンラインカリキュラム強化学習フレームワーク WebRL を紹介する。
WebRLは、トレーニングタスクの不足、スパースフィードバックシグナル、オンライン学習におけるポリシー分散ドリフトなど、LLM Webエージェントを構築する上での3つの重要な課題に対処する。
具体的には、WebRLが組み込まれています。
1) 失敗に終わった作業から新たな作業を生成する自己進化型カリキュラム
2)堅牢な成果監督報酬モデル(ORM)、及び
3)一貫した改善を確保するための適応的強化学習戦略。
オープンなLlama-3.1およびGLM-4モデルをWebエージェントに変換するためにWebRLを適用した。
WebArena-Liteでは、WebRLはLlama-3.1-8Bの成功率を4.8%から42.4%、GLM-4-9Bの6.1%から43%に改善している。
これらのオープンモデルは GPT-4-Turbo (17.6%) と GPT-4o (13.9%) をはるかに上回り、オープン LLM (AutoWebGLM, 18.2%) でトレーニングされた以前の最先端のWebエージェントより優れていた。
本研究は,オープンおよびプロプライエタリなLLMベースのWebエージェント間のギャップを埋めることによるWebRLの有効性を示す。
関連論文リスト
- AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving [41.87011820577736]
本稿では、政治強化学習エージェントを学習するための新しいフレームワークであるRAPIDを紹介する。
LLMベースの運転エージェントで合成されたデータとオンライン適応を用いて、警察のRLエージェントを専門に訓練する。
異なるタスクへの適応性を維持しながら、LLM知識の堅牢性を低減する。
論文 参考訳(メタデータ) (2024-10-16T13:43:00Z) - SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。
本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文 参考訳(メタデータ) (2024-10-16T11:59:27Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling [20.022332182475672]
ARL2は、大規模な言語モデルをラベル付けとして活用するレトリバー学習技術である。
ARL2は適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートする。
実験はARL2の有効性を示し、NQでは5.4%、MMLUでは4.6%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-02-21T05:41:34Z) - The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement
Learning and Large Language Models [2.5721733711031978]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた研究を概観する。
本稿では,2つのモデルタイプが相互に相互作用する方法に基づいた,3つの主要クラスの新しい分類法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。