論文の概要: The World Won't Stay Still: Programmable Evolution for Agent Benchmarks
- arxiv url: http://arxiv.org/abs/2603.05910v1
- Date: Fri, 06 Mar 2026 04:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.096054
- Title: The World Won't Stay Still: Programmable Evolution for Agent Benchmarks
- Title(参考訳): エージェントベンチマークのプログラム可能な進化は、まだ止まらない
- Authors: Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song,
- Abstract要約: LLMベースのエージェントは、環境とのインタラクション、データクエリ、マルチターンプロセスでのツールの呼び出しによって、ユーザの要求を満たす。
既存のベンチマークのほとんどは、固定されたスキーマとツールセットを持つ静的環境を前提としており、現実世界の進化的な性質を無視し、エージェントの環境変化に対する堅牢性を前提としている。
本稿では,環境進化をプログラム可能なグラフベースのフレームワークProEvolveを提案する。
- 参考スコア(独自算出の注目度): 44.36372545284675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-powered agents fulfill user requests by interacting with environments, querying data, and invoking tools in a multi-turn process. Yet, most existing benchmarks assume static environments with fixed schemas and toolsets, neglecting the evolutionary nature of the real world and agents' robustness to environmental changes. In this paper, we study a crucial problem: how to evolve the agent environment in a scalable and controllable way, thereby better evaluating agents' adaptability to real-world dynamics. We propose ProEvolve, a graph-based framework that makes environment evolution programmable. At its core, a typed relational graph provides a unified, explicit representation of the environment: data, tools, and schema. Under this formalism, adding, removing, or modifying capabilities are expressed as graph transformations that coherently propagate updates across tools, schemas, and data access. Building on this, ProEvolve can (1) program the evolutionary dynamics as graph transformations to generate environments automatically, and (2) instantiate task sandboxes via subgraph sampling and programming. We validate ProEvolve by evolving a single environment into 200 environments and 3,000 task sandboxes, and benchmark representative agents accordingly.
- Abstract(参考訳): LLMベースのエージェントは、環境とのインタラクション、データクエリ、マルチターンプロセスでのツールの呼び出しによって、ユーザの要求を満たす。
しかし、既存のベンチマークのほとんどは、固定されたスキーマとツールセットを持つ静的環境を前提としており、現実世界の進化的な性質を無視し、エージェントの環境変化に対する堅牢さを前提としている。
本稿では,エージェント環境をスケーラブルかつ制御可能な方法でどのように進化させるかという重要な課題について検討する。
本稿では,環境進化をプログラム可能なグラフベースのフレームワークProEvolveを提案する。
その中核にある型付きリレーショナルグラフは、データ、ツール、スキーマといった環境の統一的で明示的な表現を提供する。
このフォーマリズムの下では、機能の追加、削除、あるいは変更は、ツール、スキーマ、データアクセス間のアップデートを一貫性を持って伝達するグラフ変換として表現される。
これに基づいて、ProEvolveは(1)グラフ変換として進化力学をプログラムして環境を自動的に生成し、(2)サブグラフサンプリングとプログラミングによってタスクサンドボックスをインスタンス化する。
一つの環境を200の環境と3000のタスクサンドボックスに進化させることでProEvolveを検証する。
関連論文リスト
- Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training [34.682505898865884]
完全にインタラクティブな環境を構築し、スクラッチから完全に検証可能なタスクを構築するフレームワークであるScaleEnvを紹介します。
ScaleEnv内の探索を通じてエージェントが学習できるようにすることで、目に見えないマルチターンツール使用ベンチマークにおいて、大幅なパフォーマンス向上が示される。
論文 参考訳(メタデータ) (2026-02-06T16:05:55Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z) - DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback [62.235925602004535]
DataEnvGymは、データ生成エージェントのための教師環境のテストベッドである。
エージェントとデータ生成エンジンを含むシーケンシャルな意思決定タスクとして、データ生成をフレーム化する。
学生は、生成されたデータに基づいて反復的に訓練され、評価され、各イテレーション後にエージェントにフィードバックが報告される。
論文 参考訳(メタデータ) (2024-10-08T17:20:37Z) - Improving out-of-distribution generalization in graphs via hierarchical semantic environments [5.481047026874547]
グラフ毎に階層的な環境を生成する新しい手法を提案する。
我々は、同じ階層内の環境の多様性を学ぶために、我々のモデルを導く新しい学習目標を導入する。
我々のフレームワークは、それぞれIC50とEC50予測タスクの最高のベースラインに対して、1.29%と2.83%の改善を実現しています。
論文 参考訳(メタデータ) (2024-03-04T07:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。