論文の概要: WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model
- arxiv url: http://arxiv.org/abs/2504.21024v1
- Date: Wed, 23 Apr 2025 02:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 02:19:21.166844
- Title: WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model
- Title(参考訳): WebEvolver: 進化する世界モデルでWebエージェントの自己改善を促進する
- Authors: Tianqing Fang, Hongming Zhang, Zhisong Zhang, Kaixin Ma, Wenhao Yu, Haitao Mi, Dong Yu,
- Abstract要約: 自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
- 参考スコア(独自算出の注目度): 55.276852838877346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent self-improvement, where the backbone Large Language Model (LLM) of the agent are trained on trajectories sampled autonomously based on their own policies, has emerged as a promising approach for enhancing performance. Recent advancements, particularly in web environments, face a critical limitation: their performance will reach a stagnation point during autonomous learning cycles, hindering further improvement. We argue that this stems from limited exploration of the web environment and insufficient exploitation of pre-trained web knowledge in LLMs. To improve the performance of self-improvement, we propose a novel framework that introduces a co-evolving World Model LLM. This world model predicts the next observation based on the current observation and action within the web environment. Leveraging LLMs' pretrained knowledge of abundant web content, the World Model serves dual roles: (1) as a virtual web server generating self-instructed training data to continuously refine the agent's policy, and (2) as an imagination engine during inference, enabling look-ahead simulation to guide action selection for the agent LLM. Experiments in real-world web environments (Mind2Web-Live, WebVoyager, and GAIA-web) show a 10% performance gain over existing self-evolving agents, demonstrating the efficacy and generalizability of our approach, without using any distillation from more powerful close-sourced models. Our work establishes the necessity of integrating world models into autonomous agent frameworks to unlock sustained adaptability.
- Abstract(参考訳): エージェントの自己改善は、エージェントのバックボーン大言語モデル(LLM)が、自身のポリシーに基づいて自律的にサンプリングされた軌道上で訓練され、パフォーマンスを高めるための有望なアプローチとして現れている。
最近の進歩、特にWeb環境では、彼らのパフォーマンスは自律的な学習サイクルで停滞点に達し、さらなる改善を妨げる。
本稿は, LLM における Web 環境の限られた探索と事前学習による Web 知識の活用に起因している,と論じる。
自己改善性能を向上させるために,共進化型世界モデルLLMを導入した新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
LLMの豊富なWebコンテンツに関する事前訓練された知識を活用することで、ワールドモデルは、(1)エージェントのポリシーを継続的に洗練するための自己指示型トレーニングデータを生成する仮想Webサーバとして、(2)推論中の想像エンジンとして、そして(2)エージェントLLMのアクション選択をガイドするルックアヘッドシミュレーションを可能にする2つの役割を果たす。
実世界のWeb環境(Mind2Web-Live、WebVoyager、GAIA-Web)における実験では、既存の自己進化エージェントよりも10%パフォーマンスが向上し、より強力なオープンソースモデルからの蒸留を使わずに、我々のアプローチの有効性と一般化性を実証している。
我々の研究は、持続的な適応性を確保するために、世界モデルを自律エージェントフレームワークに統合する必要性を確立します。
関連論文リスト
- Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [22.608219492706876]
本稿では,各候補行動の結果をシミュレートし,考慮した世界モデルを用いたWebエージェントのためのモデルベース計画フレームワークを提案する。
実証的な結果は、WebDreamerがリアクティブベースラインよりも大幅にパフォーマンスが向上していることを示している。
我々の訓練された世界モデルDreamer-7Bは、GPT-4oに匹敵する性能を発揮し、複雑なウェブ環境における効率的かつ効率的な計画のための特殊な世界モデルの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文 参考訳(メタデータ) (2024-10-17T05:37:00Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。