論文の概要: Towards Adaptive Environment Generation for Training Embodied Agents
- arxiv url: http://arxiv.org/abs/2602.06366v1
- Date: Fri, 06 Feb 2026 03:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.2216
- Title: Towards Adaptive Environment Generation for Training Embodied Agents
- Title(参考訳): エージェント教育のための適応型環境創出に向けて
- Authors: Teresa Yeo, Dulaj Weerakoon, Dulanga Weerakoon, Archan Misra,
- Abstract要約: 身体的なエージェントは、新しい環境に一般化するのに苦労します。
これらのトレーニング環境を生成するための現在のアプローチは、オープンループのパラダイムに従っている。
エージェントの現在の能力に難易度を適応させるクローズドループ環境生成のための概念実証を行う。
- 参考スコア(独自算出の注目度): 6.22572530511425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents struggle to generalize to new environments, even when those environments share similar underlying structures to their training settings. Most current approaches to generating these training environments follow an open-loop paradigm, without considering the agent's current performance. While procedural generation methods can produce diverse scenes, diversity without feedback from the agent is inefficient. The generated environments may be trivially easy, providing limited learning signal. To address this, we present a proof-of-concept for closed-loop environment generation that adapts difficulty to the agent's current capabilities. Our system employs a controllable environment representation, extracts fine-grained performance feedback beyond binary success or failure, and implements a closed-loop adaptation mechanism that translates this feedback into environment modifications. This feedback-driven approach generates training environments that more challenging in the ways the agent needs to improve, enabling more efficient learning and better generalization to novel settings.
- Abstract(参考訳): エージェントは、トレーニング設定に類似した構造を共有している場合でも、新しい環境に一般化するのに苦労する。
これらのトレーニング環境を生成するための現在のアプローチは、エージェントの現在のパフォーマンスを考慮せずに、オープンループのパラダイムに従っている。
手続き生成法は多様なシーンを生成できるが、エージェントからのフィードバックを伴わない多様性は非効率である。
生成された環境は自明に簡単であり、限られた学習信号を提供する。
これを解決するために,エージェントの現在の能力に難易度を適応させるクローズドループ環境生成のための概念実証を提案する。
本システムでは、制御可能な環境表現を採用し、バイナリ成功や失敗以上のきめ細かい性能フィードバックを抽出し、このフィードバックを環境修正に変換するクローズドループ適応機構を実装している。
このフィードバック駆動アプローチは、エージェントが改善する必要がある方法でより困難なトレーニング環境を生成し、より効率的な学習と新しい設定へのより良い一般化を可能にします。
関連論文リスト
- Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に対して堅牢な訓練エージェントは、深い強化学習において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。