論文の概要: GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
- arxiv url: http://arxiv.org/abs/2512.19682v1
- Date: Mon, 22 Dec 2025 18:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.890633
- Title: GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
- Title(参考訳): GenEnv: LLMエージェントと環境シミュレータの複雑な共進化
- Authors: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang,
- Abstract要約: GenEnvは、エージェントとスケーラブルで生成可能な環境シミュレータとの間の難易度に整合した共進化ゲームを確立するフレームワークである。
我々は、API-Bank、ALFWorld、BFCL、Bamboogle、TravelPlannerの5つのベンチマークでGenEnvを評価した。
- 参考スコア(独自算出の注目度): 47.188588282493875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective $α$-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to \textbf{+40.3\%} over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3$\times$ less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.
- Abstract(参考訳): LLM(Large Language Model)エージェントの訓練は,実世界の対話データの高コストかつ静的な性質によって著しくボトルネックとなる。
我々は、エージェントとスケーラブルで生成可能な環境シミュレータとの間の難易度に整合した共進化ゲームを確立するフレームワークであるGenEnvを導入することで、この問題に対処する。
静的データセットのモデルを進化させる従来の方法とは異なり、GenEnvはデータ進化をインスタンス化する:シミュレータは動的カリキュラムポリシーとして機能し、エージェントの ``近開発ゾーン' に特化されたタスクを連続的に生成する。
このプロセスは単純だが効果的な$α$-Curriculum Rewardによって導かれる。
我々は、API-Bank、ALFWorld、BFCL、Bamboogle、TravelPlannerの5つのベンチマークでGenEnvを評価した。
これらのタスク全体にわたって、GenEnvは7Bベースラインに最大で \textbf{+40.3\%} までのエージェントパフォーマンスを改善し、より大きなモデルの平均パフォーマンスにマッチするか、あるいは超える。
Gemini 2.5 Proベースのオフラインデータ拡張と比較して、GenEnvは3.3$\times$より少ないデータを使用しながら、より良いパフォーマンスを実現している。
静的監視から適応シミュレーションに移行することで、GenEnvは、スケーリングエージェント機能のためのデータ効率の高いパスを提供する。
関連論文リスト
- Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning [42.1534425503333]
CrossAgentは異種作用空間をマスターし、軌道の各ステップで最も効果的なインターフェースを自律的に選択する統合エージェントモデルである。
オープンソースのMinecraft環境における800以上のタスクの実験は、CrossAgentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-10T14:52:29Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。