論文の概要: Effective Diversity in Unsupervised Environment Design
- arxiv url: http://arxiv.org/abs/2301.08025v1
- Date: Thu, 19 Jan 2023 11:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 15:07:02.712059
- Title: Effective Diversity in Unsupervised Environment Design
- Title(参考訳): 無監督環境設計における効果的な多様性
- Authors: Wenjun Li, Pradeep Varakantham, Dexun Li
- Abstract要約: 本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。
我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 9.172096093540357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent decision making using Reinforcement Learning (RL) heavily relies on
either a model or simulator of the environment (e.g., moving in an 8x8 maze
with three rooms, playing Chess on an 8x8 board). Due to this dependence, small
changes in the environment (e.g. positions of obstacles in the maze, size of
the board) can severely affect the effectiveness of the policy learnt by the
agent. To that end, existing work has proposed training RL agents on an
adaptive curriculum of environments (generated automatically) to improve
performance on out-of-distribution (OOD) test scenarios. Specifically, existing
research has employed the potential for the agent to learn in an environment
(captured using Generalized Advantage Estimation, GAE) as the key factor to
select the next environment(s) to train the agent. However, such a mechanism
can select similar environments (with a high potential to learn) thereby making
agent training redundant on all but one of those environments. To that end, we
provide a principled approach to adaptively identify diverse environments based
on a novel distance measure relevant to environment design. We empirically
demonstrate the versatility and effectiveness of our method in comparison to
multiple leading approaches for unsupervised environment design on three
distinct benchmark problems used in literature.
- Abstract(参考訳): 強化学習(rl)を用いたエージェント意思決定は、環境のモデルまたはシミュレータに依存している(例えば、3部屋の8x8迷路を移動し、8x8ボードでチェスをする)。
この依存により、環境の変化(迷路内の障害物の位置や板の大きさなど)は、エージェントが学習したポリシーの有効性に重大な影響を及ぼす可能性がある。
そのために既存の研究は、環境の適応的なカリキュラム(自動生成)でRLエージェントを訓練し、アウト・オブ・ディストリビューション(OOD)テストシナリオのパフォーマンスを改善することを提案した。
具体的には、エージェントを訓練するための次の環境を選択するための鍵となる要因として、エージェントが(一般化アドバンテージ推定(GAE)を用いて取得した)環境において学習する可能性を用いている。
しかし、このようなメカニズムは類似した環境(学習する可能性が高い)を選択することで、エージェントトレーニングをこれらの環境以外のすべてで冗長にすることができる。
そこで本研究では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。
本研究では,本手法の汎用性と有効性を実証し,文献で用いられる3つのベンチマーク問題に対する教師なし環境設計のための複数の先行手法と比較した。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Environment Optimization for Multi-Agent Navigation [11.473177123332281]
本研究の目的は,システムレベルの最適化問題において,環境を決定変数として考えることである。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
幅広い実装シナリオに対応するため、オンラインとオフラインの両方の最適化と、離散環境と連続環境の両方の表現を含む。
論文 参考訳(メタデータ) (2022-09-22T19:22:16Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。