論文の概要: School of hard knocks: Curriculum analysis for Pommerman with a fixed
computational budget
- arxiv url: http://arxiv.org/abs/2102.11762v2
- Date: Wed, 24 Feb 2021 07:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:48:27.284543
- Title: School of hard knocks: Curriculum analysis for Pommerman with a fixed
computational budget
- Title(参考訳): ハードノックの学派: 計算予算を固定したポンマーマンのカリキュラム分析
- Authors: Omkar Shelke, Hardik Meisheri, Harshad Khadilkar
- Abstract要約: Pommermanはハイブリッドな協調/逆のマルチエージェント環境です。
これは強化学習アプローチにとって難しい環境である。
制約付き計算予算10万ゲームにおいて、堅牢で有望なポリシーを学習するためのカリキュラムを開発する。
- 参考スコア(独自算出の注目度): 4.726777092009554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pommerman is a hybrid cooperative/adversarial multi-agent environment, with
challenging characteristics in terms of partial observability, limited or no
communication, sparse and delayed rewards, and restrictive computational time
limits. This makes it a challenging environment for reinforcement learning (RL)
approaches. In this paper, we focus on developing a curriculum for learning a
robust and promising policy in a constrained computational budget of 100,000
games, starting from a fixed base policy (which is itself trained to imitate a
noisy expert policy). All RL algorithms starting from the base policy use
vanilla proximal-policy optimization (PPO) with the same reward function, and
the only difference between their training is the mix and sequence of opponent
policies. One expects that beginning training with simpler opponents and then
gradually increasing the opponent difficulty will facilitate faster learning,
leading to more robust policies compared against a baseline where all available
opponent policies are introduced from the start. We test this hypothesis and
show that within constrained computational budgets, it is in fact better to
"learn in the school of hard knocks", i.e., against all available opponent
policies nearly from the start. We also include ablation studies where we study
the effect of modifying the base environment properties of ammo and bomb blast
strength on the agent performance.
- Abstract(参考訳): Pommermanは、部分的な可観測性、通信の制限またはなし、報酬のスパースと遅延、および制限された計算時間制限の点で困難な特性を持つハイブリッド協調/逆マルチエージェント環境です。
これにより、強化学習(RL)アプローチの難しい環境になる。
本稿では,定型的基本方針(ノイズの多い専門家政策を模倣する訓練)から始まる,制約付き10,000試合の計算予算で,堅牢で有望な政策を学習するためのカリキュラムの開発に焦点をあてる。
基本方針から始まる全てのRLアルゴリズムは、同じ報酬関数を持つバニラ近似-ポリチ最適化(PPO)を使用し、トレーニングの唯一の違いは、対立するポリシーの混合と順序である。
より単純な相手とのトレーニングを開始し、徐々に相手の難易度を増すと、学習の迅速化が期待され、利用可能なすべての相手ポリシーが最初から導入されるベースラインと比較して、より堅牢なポリシーが導かれる。
我々は、この仮説を検証し、制約された計算予算の中で、事実上「ハードノックの学派で学ぶ」こと、すなわち、ほぼ最初から利用可能な全ての反対の政策に対して、より良いことを示します。
また、アンモのベース環境特性や爆破強度がエージェント性能に及ぼす影響を研究するアブレーション研究も実施しています。
関連論文リスト
- Oracle-Efficient Reinforcement Learning for Max Value Ensembles [7.404901768256101]
大または無限の状態空間における強化学習(RL)は、理論上、実験的に困難である。
この作業では、$textitmax-following Policy$と競合することを目指しています。
我々の主な成果は、構成ポリシーのみにアクセスすると、最大フォローポリシーと競合する効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-27T01:08:23Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - Beyond Worst-case Attacks: Robust RL with Adaptive Defense via
Non-dominated Policies [42.709038827974375]
我々は、よく受け入れられた国家アドリアック・アタック・モデルの下で、政策の堅牢性について研究する。
本稿では,テクティトノン非推奨ポリシーを反復的に発見するための新しい学習時間アルゴリズムを提案する。
Mujoco subroutineの実証検証は、自然および堅牢な性能の観点から、我々のアプローチの優位性を裏付けるものである。
論文 参考訳(メタデータ) (2024-02-20T02:45:20Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Modeling Strong and Human-Like Gameplay with KL-Regularized Search [64.24339197581769]
我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
論文 参考訳(メタデータ) (2021-12-14T16:52:49Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。