論文の概要: AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
- arxiv url: http://arxiv.org/abs/2511.19304v1
- Date: Mon, 24 Nov 2025 16:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.328334
- Title: AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
- Title(参考訳): AutoEnv: クロス環境エージェント学習のための自動環境
- Authors: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo,
- Abstract要約: クロス環境学習は、ほとんど未測定のままである。
我々は、環境を移行、観察、報酬よりも分解可能な分布として扱う自動化フレームワークであるAutoEnvを提案する。
AutoEnvを用いて、358の検証レベルを持つ36の環境のデータセットであるAutoEnv-36を構築し、7つの言語モデルが12-49%の正規化報酬を得る。
- 参考スコア(独自算出の注目度): 42.54111865959771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.
- Abstract(参考訳): 人間は自然に多様な環境に適応し、異なるダイナミクス、観察、報酬構造を持つ世界全体のルールを学習する。
対照的に、既存のエージェントは、通常、固定環境分布を暗黙的に仮定して、単一のドメイン内で自己進化することで改善を示す。
コントロール可能で異質な環境の標準的収集やエージェントの学習方法の統一化など、クロス環境学習は依然としてほとんど未解決のままである。
これらのギャップを2つのステップで解決する。
まず、環境を遷移、観測、報酬よりも分解可能な分布として扱う自動化フレームワークであるAutoEnvを提案し、異種世界の低コスト(平均4.12USD)を可能とした。
AutoEnvを用いて、358の検証レベルを持つ36環境のデータセットであるAutoEnv-36を構築し、7つの言語モデルが12-49%の正規化報酬を達成し、AutoEnv-36の課題を実証した。
第2に、エージェント学習を、実装可能なエージェントコンポーネントに適用された選択、最適化、評価の3段階によって駆動されるコンポーネント中心のプロセスとして定式化する。
この定式化を用いて,8つの学習手法を設計し,それらをAutoEnv-36上で評価する。
経験的に、環境の数が増えるにつれて、単一学習手法の利得は急速に減少し、固定学習法が異種環境にまたがらないことが明らかとなった。
学習手法の環境適応的選択は、性能を大幅に向上させるが、手法空間が拡大するにつれてリターンが低下することを示す。
これらの結果は、スケーラブルなクロス環境一般化のためのエージェント学習の必要性と現在の制限、およびクロス環境エージェント学習を研究するためのテストベッドとしてAutoEnvとAutoEnv-36の位置づけの両方を強調した。
コードはhttps://github.com/FoundationAgents/AutoEnv.orgで利用可能である。
関連論文リスト
- Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning [25.438771583229727]
本稿では,リアルタイムとシミュレーションのギャップを低コストで埋めるために,自律運転のための検索強化学習(RALAD)を提案する。
RALADは、(1)拡張された最適輸送(OT)メソッドによるドメイン適応、(2)シンプルで統一されたフレームワーク、(3)効率的な微調整技術を含む3つの主要な設計を特徴としている。
実験の結果,ALADは実世界のシナリオにおける精度を維持しつつ,シミュレーション環境における性能劣化を補償することを示した。
論文 参考訳(メタデータ) (2025-01-21T17:03:06Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Generalization through Diversity: Improving Unsupervised Environment
Design [8.961693126230452]
本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。
我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-01-19T11:55:47Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。