論文の概要: Learning Curricula in Open-Ended Worlds
- arxiv url: http://arxiv.org/abs/2312.03126v2
- Date: Fri, 8 Dec 2023 01:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:40:20.752135
- Title: Learning Curricula in Open-Ended Worlds
- Title(参考訳): オープンエンドワールドにおける学習カリキュラム
- Authors: Minqi Jiang
- Abstract要約: この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 17.138779075998084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) provides powerful methods for training
optimal sequential decision-making agents. As collecting real-world
interactions can entail additional costs and safety risks, the common paradigm
of sim2real conducts training in a simulator, followed by real-world
deployment. Unfortunately, RL agents easily overfit to the choice of simulated
training environments, and worse still, learning ends when the agent masters
the specific set of simulated environments. In contrast, the real world is
highly open-ended, featuring endlessly evolving environments and challenges,
making such RL approaches unsuitable. Simply randomizing over simulated
environments is insufficient, as it requires making arbitrary distributional
assumptions and can be combinatorially less likely to sample specific
environment instances that are useful for learning. An ideal learning process
should automatically adapt the training environment to maximize the learning
potential of the agent over an open-ended task space that matches or surpasses
the complexity of the real world. This thesis develops a class of methods
called Unsupervised Environment Design (UED), which aim to produce such
open-ended processes. Given an environment design space, UED automatically
generates an infinite sequence or curriculum of training environments at the
frontier of the learning agent's capabilities. Through extensive empirical
studies and theoretical arguments founded on minimax-regret decision theory and
game theory, the findings in this thesis show that UED autocurricula can
produce RL agents exhibiting significantly improved robustness and
generalization to previously unseen environment instances. Such autocurricula
are promising paths toward open-ended learning systems that achieve more
general intelligence by continually generating and mastering additional
challenges of their own design.
- Abstract(参考訳): 深部強化学習(RL)は最適な逐次意思決定エージェントを訓練するための強力な方法を提供する。
現実のインタラクションの収集には追加のコストと安全性のリスクが伴うため、sim2realの共通パラダイムはシミュレータでトレーニングを行い、続いて実世界のデプロイを行う。
残念ながら、RLエージェントはシミュレートされたトレーニング環境の選択に容易に適しており、さらに悪いことに、エージェントが特定のシミュレートされた環境セットをマスターすると学習は終了する。
対照的に、現実世界は非常にオープンで、進化を続ける環境と課題が特徴であり、そのようなRLアプローチは適さない。
シミュレーション環境よりも単純なランダム化は、任意の分布仮定を必要とするため不十分であり、学習に役立つ特定の環境インスタンスを組合せ的にサンプリングする可能性が低い。
理想的な学習プロセスは、エージェントの学習能力を、現実世界の複雑さに合ったり、超えたりしたオープンなタスク空間に、自動的に適応させなければならない。
この論文はUnsupervised Environment Design (UED)と呼ばれる手法を開発し、そのようなオープンなプロセスを生み出すことを目的としている。
環境設計空間が与えられると、UEDは学習エージェントの能力の最前線で、無限のシーケンスや訓練環境のカリキュラムを自動的に生成する。
ミニマックス回帰決定理論とゲーム理論に基づく広範な実証研究と理論論を通じて、この論文の知見は、UEDオートキュリキュラがRLエージェントを生成できることを示す。
このようなautocurriculaは、より汎用的な知性を達成するオープンエンドの学習システムへの道筋であり、彼ら自身の設計の新たな挑戦を継続的に生成し、マスターする。
関連論文リスト
- Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity [10.402855891273346]
DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。
実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
論文 参考訳(メタデータ) (2024-11-07T06:27:12Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Evolving Curricula with Regret-Based Environment Design [37.70275057075986]
我々は、原則化された後悔に基づくカリキュラムで進化の力を活用することを提案する。
我々の手法はエージェントの能力の最前線で常にレベルを発生させることを試みており、その結果、単純から始まるがますます複雑になるキュリキュラが生まれる。
論文 参考訳(メタデータ) (2022-03-02T18:40:00Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。