論文の概要: Diversity Induced Environment Design via Self-Play
- arxiv url: http://arxiv.org/abs/2302.02119v1
- Date: Sat, 4 Feb 2023 07:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:04:26.837346
- Title: Diversity Induced Environment Design via Self-Play
- Title(参考訳): 自己再生による多様性誘導型環境設計
- Authors: Dexun Li, Wenjun Li, Pradeep Varakantham
- Abstract要約: 本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
- 参考スコア(独自算出の注目度): 9.172096093540357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on designing an appropriate distribution of environments has
shown promise for training effective generally capable agents. Its success is
partly because of a form of adaptive curriculum learning that generates
environment instances (or levels) at the frontier of the agent's capabilities.
However, such an environment design framework often struggles to find effective
levels in challenging design spaces and requires costly interactions with the
environment. In this paper, we aim to introduce diversity in the Unsupervised
Environment Design (UED) framework. Specifically, we propose a task-agnostic
method to identify observed/hidden states that are representative of a given
level. The outcome of this method is then utilized to characterize the
diversity between two levels, which as we show can be crucial to effective
performance. In addition, to improve sampling efficiency, we incorporate the
self-play technique that allows the environment generator to automatically
generate environments that are of great benefit to the training agent.
Quantitatively, our approach, Diversity-induced Environment Design via
Self-Play (DivSP), shows compelling performance over existing methods.
- Abstract(参考訳): 環境の適切な分布を設計する最近の研究は、効果的な汎用エージェントの訓練を約束していることを示している。
その成功の一部は、エージェントの能力の最前線で環境インスタンス(またはレベル)を生成する適応的なカリキュラム学習の形式が原因である。
しかし、このような環境設計フレームワークは、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労し、環境とのコストのかかる相互作用を必要とする。
本稿では,Unsupervised Environment Design (UED) フレームワークに多様性を導入することを目的とする。
具体的には,与えられたレベルを表す観測/隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるため, 環境生成装置が学習エージェントにとって非常に有益な環境を自動的に生成できるセルフプレイ技術も取り入れた。
提案手法は,DivSP(DivSP)による環境設計であり,既存の手法よりも優れた性能を示す。
関連論文リスト
- Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Free Lunch for Domain Adversarial Training: Environment Label Smoothing [82.85757548355566]
環境ラベル平滑化 (ELS) により, 騒音環境ラベルに対するトレーニング安定性, 局所収束性, 堅牢性を向上する。
特に環境ラベルが騒がしい場合, 領域の一般化・適応タスクについて, 最先端の成果が得られる。
論文 参考訳(メタデータ) (2023-02-01T02:55:26Z) - Generalization through Diversity: Improving Unsupervised Environment
Design [8.961693126230452]
本稿では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。
我々は,教師なし環境設計における複数の主要なアプローチと比較して,提案手法の汎用性と有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-01-19T11:55:47Z) - Environment Design for Inverse Reinforcement Learning [3.085995273374333]
一つの環境から学ぶことに集中する現在の逆強化学習法は、環境力学のわずかな変化に対処できない可能性がある。
本フレームワークでは,学習者がエキスパートと繰り返し対話し,前者の選択環境を使って報酬関数を識別する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
論文 参考訳(メタデータ) (2022-10-26T18:31:17Z) - Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning [71.53769213321202]
環境の調整レベルと不均一度の概念を定式化する。
異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。
本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T18:17:01Z) - Environment Optimization for Multi-Agent Navigation [11.473177123332281]
本研究の目的は,システムレベルの最適化問題において,環境を決定変数として考えることである。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
幅広い実装シナリオに対応するため、オンラインとオフラインの両方の最適化と、離散環境と連続環境の両方の表現を含む。
論文 参考訳(メタデータ) (2022-09-22T19:22:16Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。