論文の概要: A Hierarchical Approach to Environment Design with Generative Trajectory
Modeling
- arxiv url: http://arxiv.org/abs/2310.00301v1
- Date: Sat, 30 Sep 2023 08:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:21:27.241701
- Title: A Hierarchical Approach to Environment Design with Generative Trajectory
Modeling
- Title(参考訳): 生成軌道モデリングによる環境設計の階層的アプローチ
- Authors: Dexun Li, Pradeep Varakantham
- Abstract要約: 階層型MDP(Markov Decision Processes)に基づく新しいフレームワークを提案する。
我々のアルゴリズムは、SHED(Synthetically-enhanced Hierarchical Environment Design)と呼ばれ、エージェントと環境の間のリソース集約的な相互作用を著しく低減する。
本結果は,SHEDの多様体的優位性を示し,UEDフレームワーク内でのカリキュラムベース学習の強力な手段としての有効性を強調した。
- 参考スコア(独自算出の注目度): 8.256433006393243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Environment Design (UED) is a paradigm for training generally
capable agents to achieve good zero-shot transfer performance. This paradigm
hinges on automatically generating a curriculum of training environments.
Leading approaches for UED predominantly use randomly generated environment
instances to train the agent. While these methods exhibit good zero-shot
transfer performance, they often encounter challenges in effectively exploring
large design spaces or leveraging previously discovered underlying structures,
To address these challenges, we introduce a novel framework based on
Hierarchical MDP (Markov Decision Processes). Our approach includes an
upper-level teacher's MDP responsible for training a lower-level MDP student
agent, guided by the student's performance. To expedite the learning of the
upper leavel MDP, we leverage recent advancements in generative modeling to
generate synthetic experience dataset for training the teacher agent. Our
algorithm, called Synthetically-enhanced Hierarchical Environment Design
(SHED), significantly reduces the resource-intensive interactions between the
agent and the environment. To validate the effectiveness of SHED, we conduct
empirical experiments across various domains, with the goal of developing an
efficient and robust agent under limited training resources. Our results show
the manifold advantages of SHED and highlight its effectiveness as a potent
instrument for curriculum-based learning within the UED framework. This work
contributes to exploring the next generation of RL agents capable of adeptly
handling an ever-expanding range of complex tasks.
- Abstract(参考訳): Unsupervised Environment Design (UED) は、ゼロショット転送性能を達成するための一般的なエージェントを訓練するためのパラダイムである。
このパラダイムは、トレーニング環境のカリキュラムを自動的に生成する。
UEDの主要なアプローチは、エージェントをトレーニングするためにランダムに生成された環境インスタンスを使用する。
これらの手法はゼロショット転送性能に優れるが,大規模な設計空間を効果的に探索したり,従来発見されていた構造を活用したりする上での課題にしばしば遭遇し,これらの課題に対処するため,階層mdp(markov decision process)に基づく新しい枠組みを提案する。
提案手法では,上級教員のMDPが,学生のパフォーマンスを指導する下級MDP学生エージェントを訓練する役割を担っている。
上層部MDPの学習を迅速化するために, 生成モデリングの最近の進歩を活用して, 教師エージェントを訓練するための合成経験データセットを生成する。
我々のアルゴリズムは、SHED(Synthetically-enhanced Hierarchical Environment Design)と呼ばれ、エージェントと環境の間のリソース集約的な相互作用を著しく低減する。
shedの有効性を検証するために,限られた訓練資源で効率的でロバストなエージェントを開発することを目的として,様々な領域で実証実験を行った。
本結果は,SHEDの多様体的優位性を示し,UEDフレームワーク内でのカリキュラムベース学習の強力な手段としての有効性を強調した。
この研究は、より広範囲にわたる複雑なタスクを適切に処理できる次世代のrlエージェントの探索に寄与する。
関連論文リスト
- Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に対して堅牢な訓練エージェントは、深い強化学習において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback [62.235925602004535]
データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介する。
DataEnvGymはシーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。
エージェントの目標は、生徒のパフォーマンスを改善することです。
我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。
論文 参考訳(メタデータ) (2024-10-08T17:20:37Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Stabilizing Unsupervised Environment Design with a Learned Adversary [28.426666219969555]
汎用エージェントの訓練における主な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。
教師なし環境設計(UED)の先駆的なアプローチは、強化学習を使用して教師の政策を訓練し、ゼロからタスクを設計するPAIREDである。
PAIREDは理論上の強い支持にもかかわらず、実用性能を阻害する様々な課題に悩まされている。
我々は、PAIREDが最先端の手法に適合または超えることを可能にし、いくつかの確立された手続き的環境において堅牢なエージェントを生産する。
論文 参考訳(メタデータ) (2023-08-21T15:42:56Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。