論文の概要: Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling
- arxiv url: http://arxiv.org/abs/2310.00301v2
- Date: Thu, 15 Feb 2024 07:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:00:56.940516
- Title: Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling
- Title(参考訳): 生成軌道モデリングによる階層的環境設計の強化
- Authors: Dexun Li, Pradeep Varakantham
- Abstract要約: 本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
- 参考スコア(独自算出の注目度): 8.256433006393243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Environment Design (UED) is a paradigm for automatically
generating a curriculum of training environments, enabling agents trained in
these environments to develop general capabilities, i.e., achieving good
zero-shot transfer performance. However, existing UED approaches focus
primarily on the random generation of environments for open-ended agent
training. This is impractical in scenarios with limited resources, such as the
constraints on the number of generated environments. In this paper, we
introduce a hierarchical MDP framework for environment design under resource
constraints. It consists of an upper-level RL teacher agent that generates
suitable training environments for a lower-level student agent. The RL teacher
can leverage previously discovered environment structures and generate
environments at the frontier of the student's capabilities by observing the
student policy's representation. Moreover, to reduce the time-consuming
collection of experiences for the upper-level teacher, we utilize recent
advances in generative modeling to synthesize a trajectory dataset to train the
teacher agent. Our proposed method significantly reduces the resource-intensive
interactions between agents and environments and empirical experiments across
various domains demonstrate the effectiveness of our approach.
- Abstract(参考訳): Unsupervised Environment Design (UED) は、訓練環境のカリキュラムを自動生成するパラダイムであり、これらの環境で訓練されたエージェントが一般的な能力、すなわちゼロショット転送性能を向上することを可能にする。
しかし、既存のUEDアプローチは主にオープンエンドエージェントトレーニングのためのランダムな環境の生成に焦点を当てている。
これは、生成した環境の数に対する制約など、リソースが限られているシナリオでは非現実的です。
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
rl教師は、学生の政策の表象を観察することで、以前に発見された環境構造を活用し、学生の能力のフロンティアにおける環境を生成することができる。
さらに,高位教員の経験の収集に要する時間を削減するため,生成モデリングの最近の進歩を利用して,教師エージェントを訓練するための軌道データセットを合成する。
提案手法は,エージェントと環境間のリソース集約的な相互作用を著しく低減し,様々な領域で実験を行い,提案手法の有効性を実証する。
関連論文リスト
- Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に頑健な訓練エージェントは、深層強化学習(RL)において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback [62.235925602004535]
データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介する。
DataEnvGymはシーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。
エージェントの目標は、生徒のパフォーマンスを改善することです。
我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。
論文 参考訳(メタデータ) (2024-10-08T17:20:37Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Stabilizing Unsupervised Environment Design with a Learned Adversary [28.426666219969555]
汎用エージェントの訓練における主な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。
教師なし環境設計(UED)の先駆的なアプローチは、強化学習を使用して教師の政策を訓練し、ゼロからタスクを設計するPAIREDである。
PAIREDは理論上の強い支持にもかかわらず、実用性能を阻害する様々な課題に悩まされている。
我々は、PAIREDが最先端の手法に適合または超えることを可能にし、いくつかの確立された手続き的環境において堅牢なエージェントを生産する。
論文 参考訳(メタデータ) (2023-08-21T15:42:56Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。