論文の概要: Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.10090v1
- Date: Tue, 10 Feb 2026 18:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.754031
- Title: Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
- Title(参考訳): エージェントワールドモデル:エージェント強化学習のための無限合成環境
- Authors: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He,
- Abstract要約: 大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
- 参考スコア(独自算出の注目度): 62.499592503950026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを自律エージェントが実行できるようにする。
しかし、このようなエージェントトレーニングのスケーリングは、多様な信頼性のある環境の欠如によって制限される。
本稿では,完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
このパイプラインを使用して、エージェントがリッチなツールセット(平均環境では35のツール)と対話し、高品質な観察を行うことができる、毎日のシナリオをカバーする1,000の環境にスケールします。
特に、これらの環境はコード駆動で、データベースによってバックアップされており、LCMでシミュレートされた環境よりも信頼性が高く一貫性のある状態遷移を提供する。
さらに、現実的な環境からの軌道を収集するよりも、より効率的なエージェント間相互作用を可能にする。
このリソースの有効性を示すために,多ターンツール利用エージェントの大規模強化学習を行う。
完全に実行可能な環境とアクセス可能なデータベース状態のおかげで、信頼できる報酬関数を設計することもできる。
3つのベンチマークの実験では、ベンチマーク固有のものではなく、合成環境でのみトレーニングを行うことで、分散の強い一般化が得られることが示されている。
コードはhttps://github.com/Snowflake-Labs/agent-world-modelで公開されている。
関連論文リスト
- SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis [101.67583081810136]
大規模言語モデル(LLM)は、様々な現実世界環境においてエージェントとして機能するよう訓練されることが期待されている。
このプロセスはリッチで多様なツール・インタラクション・サンドボックスに依存している。
スケーラブルなツールインタラクション環境のための自動化フレームワークであるEnvScalerを提案する。
論文 参考訳(メタデータ) (2026-01-09T14:32:06Z) - CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL [35.086788669916594]
大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
論文 参考訳(メタデータ) (2025-12-01T06:11:37Z) - VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - Generalizable End-to-End Tool-Use RL with Synthetic CodeGym [52.31172214690965]
エージェントRLのための多目的ツール環境を多種多様な、検証可能な、制御可能な、多目的ツール環境を合成するフレームワークであるCodeGymを紹介する。
CodeGymは、静的コーディングの問題を対話的な環境に書き換え、原子関数やロジックを呼び出し可能なツールに抽出する。
さまざまなサイズのモデルとCodeGymでトレーニングされたチェーン・オブ・コンフィグレーションは、一貫したアウト・オブ・ディストリビューションの一般化性を示す。
論文 参考訳(メタデータ) (2025-09-22T03:03:56Z) - Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。
完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。
エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-16T17:57:20Z) - Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。
高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。
また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文 参考訳(メタデータ) (2024-07-25T05:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。