論文の概要: ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training
- arxiv url: http://arxiv.org/abs/2602.06820v1
- Date: Fri, 06 Feb 2026 16:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.470921
- Title: ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training
- Title(参考訳): ScaleEnv: 汎用対話型ツール利用エージェントトレーニングのためのスクラッチからのスケーリング環境合成
- Authors: Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai,
- Abstract要約: 完全にインタラクティブな環境を構築し、スクラッチから完全に検証可能なタスクを構築するフレームワークであるScaleEnvを紹介します。
ScaleEnv内の探索を通じてエージェントが学習できるようにすることで、目に見えないマルチターンツール使用ベンチマークにおいて、大幅なパフォーマンス向上が示される。
- 参考スコア(独自算出の注目度): 34.682505898865884
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as $τ^2$-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.
- Abstract(参考訳): 多様なシナリオに適応できる訓練ジェネリストエージェントは、自己探索のための対話的な環境を必要とする。
しかし、対話的な環境は依然として極めて乏しく、既存の合成手法は、環境の多様性とスケーラビリティに関する重大な制限に悩まされている。
これらの課題に対処するために、完全にインタラクティブな環境を構築し、完全にスクラッチから検証可能なタスクを構築するフレームワークであるScaleEnvを紹介します。
特にScaleEnvは、手続き的なテストを通じて環境の信頼性を確保し、ツール依存グラフの拡張と実行可能なアクション検証を通じてタスクの完全性と解決性を保証する。
ScaleEnv内の探索を通じてエージェントを学習させることで、$τ^2$-BenchやVitaBenchといった、目に見えないマルチターンツール使用ベンチマークにおいて、強力な一般化機能を強調しながら、大幅なパフォーマンス向上を実証する。
さらに,ドメイン数の増加とモデル一般化性能の関係を考察し,環境多様性のスケーリングが堅牢なエージェント学習に不可欠であることを示す実証的証拠を提供する。
関連論文リスト
- AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning [71.4322853508083]
シミュレーション環境における強化学習の実施は、言語ベースのエージェントを強化するためのコスト効率が高く、スケーラブルな方法を提供する。
これまでの作業は、半自動化された環境合成や、十分な困難を欠いたタスクに限られており、幅や深さがほとんどない。
本稿では,高難易度かつ容易に検証可能なタスクに関連付けられたシミュレーション環境の,自動化されたスケーラブルな合成のための統一パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-28T09:43:11Z) - CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL [35.086788669916594]
大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
論文 参考訳(メタデータ) (2025-12-01T06:11:37Z) - Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。
完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。
エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-16T17:57:20Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions [50.5976989558411]
本稿では,GUI環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含んでいる、という一般的なシナリオが提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。