論文の概要: GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
- arxiv url: http://arxiv.org/abs/2512.19682v2
- Date: Tue, 23 Dec 2025 03:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.750567
- Title: GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
- Title(参考訳): GenEnv: LLMエージェントと環境シミュレータの複雑な共進化
- Authors: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang,
- Abstract要約: GenEnvは、エージェントとスケーラブルで生成可能な環境シミュレータとの間の難易度に整合した共進化ゲームを確立するフレームワークである。
我々は、API-Bank、ALFWorld、BFCL、Bamboogle、TravelPlannerの5つのベンチマークでGenEnvを評価した。
- 参考スコア(独自算出の注目度): 47.188588282493875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective $α$-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to \textbf{+40.3\%} over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3$\times$ less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.
- Abstract(参考訳): LLM(Large Language Model)エージェントの訓練は,実世界の対話データの高コストかつ静的な性質によって著しくボトルネックとなる。
我々は、エージェントとスケーラブルで生成可能な環境シミュレータとの間の難易度に整合した共進化ゲームを確立するフレームワークであるGenEnvを導入することで、この問題に対処する。
静的データセットのモデルを進化させる従来の方法とは異なり、GenEnvはデータ進化をインスタンス化する:シミュレータは動的カリキュラムポリシーとして機能し、エージェントの ``近開発ゾーン' に特化されたタスクを連続的に生成する。
このプロセスは単純だが効果的な$α$-Curriculum Rewardによって導かれる。
我々は、API-Bank、ALFWorld、BFCL、Bamboogle、TravelPlannerの5つのベンチマークでGenEnvを評価した。
これらのタスク全体にわたって、GenEnvは7Bベースラインに最大で \textbf{+40.3\%} までのエージェントパフォーマンスを改善し、より大きなモデルの平均パフォーマンスにマッチするか、あるいは超える。
Gemini 2.5 Proベースのオフラインデータ拡張と比較して、GenEnvは3.3$\times$より少ないデータを使用しながら、より良いパフォーマンスを実現している。
静的監視から適応シミュレーションに移行することで、GenEnvは、スケーリングエージェント機能のためのデータ効率の高いパスを提供する。
関連論文リスト
- MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文 参考訳(メタデータ) (2026-01-26T14:49:04Z) - EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience [44.734653745434834]
本稿では,ネイティブコンピュータ利用エージェントモデルであるEvoCUAを紹介する。
静的な模倣とは異なり、EvoCUAはデータ生成とポリシー最適化を自己持続的な進化サイクルに統合する。
EvoCUAは以前の最高のオープンソースモデルであるOpenCUA-72Bを大きく上回っている。
論文 参考訳(メタデータ) (2026-01-22T11:36:43Z) - SimuAgent: An LLM-Based Simulink Modeling Assistant Enhanced with Reinforcement Learning [3.1436750864792375]
我々は,Simulinkに適したモデリングおよびシミュレーションエージェントであるSimuAgentを紹介する。
SimuAgentはXMLを簡潔な辞書スタイルのPython表現に置き換え、トークン数を劇的に削減する。
2段階で訓練された軽量な計画実行アーキテクチャは、エージェントに低レベルのツールスキルと高レベルの設計推論の両方を装備する。
論文 参考訳(メタデータ) (2026-01-08T18:10:35Z) - Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning [42.1534425503333]
CrossAgentは異種作用空間をマスターし、軌道の各ステップで最も効果的なインターフェースを自律的に選択する統合エージェントモデルである。
オープンソースのMinecraft環境における800以上のタスクの実験は、CrossAgentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-10T14:52:29Z) - UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。