論文の概要: Instance based Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.01089v1
- Date: Mon, 2 Nov 2020 16:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:23:11.741658
- Title: Instance based Generalization in Reinforcement Learning
- Title(参考訳): 強化学習におけるインスタンスベース一般化
- Authors: Martin Bertran, Natalia Martinez, Mariano Phielipp, Guillermo Sapiro
- Abstract要約: 部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
- 参考スコア(独自算出の注目度): 24.485597364200824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents trained via deep reinforcement learning (RL) routinely fail to
generalize to unseen environments, even when these share the same underlying
dynamics as the training levels. Understanding the generalization properties of
RL is one of the challenges of modern machine learning. Towards this goal, we
analyze policy learning in the context of Partially Observable Markov Decision
Processes (POMDPs) and formalize the dynamics of training levels as instances.
We prove that, independently of the exploration strategy, reusing instances
introduces significant changes on the effective Markov dynamics the agent
observes during training. Maximizing expected rewards impacts the learned
belief state of the agent by inducing undesired instance specific speedrunning
policies instead of generalizeable ones, which are suboptimal on the training
set. We provide generalization bounds to the value gap in train and test
environments based on the number of training instances, and use insights based
on these to improve performance on unseen levels. We propose training a shared
belief representation over an ensemble of specialized policies, from which we
compute a consensus policy that is used for data collection, disallowing
instance specific exploitation. We experimentally validate our theory,
observations, and the proposed computational solution over the CoinRun
benchmark.
- Abstract(参考訳): 深層強化学習(RL)を介して訓練されたエージェントは、トレーニングレベルと同じ基礎となるダイナミクスを共有している場合でも、通常、目に見えない環境に一般化できない。
RLの一般化特性を理解することは、現代の機械学習の課題の1つである。
この目標に向けて,部分的に観察可能なマルコフ決定プロセス(pomdps)の文脈でポリシ学習を分析し,トレーニングレベルのダイナミクスをインスタンスとして定式化する。
探索戦略とは独立して、インスタンスの再利用は、エージェントがトレーニング中に観察する効果的なマルコフダイナミクスに大きな変化をもたらすことを証明します。
期待される報酬の最大化は、訓練セットに最適である一般化可能なものではなく、望ましくないインスタンス固有のスピードランニングポリシーを誘導することによってエージェントの学習された信念状態に影響を与える。
トレーニングインスタンスの数に基づいて,トレーニング環境とテスト環境の値ギャップを一般化し,これらに基づく洞察を用いて,目に見えないレベルのパフォーマンスを向上させる。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、一連の専門ポリシーの共有信念表現のトレーニングを提案する。
我々はCoinRunベンチマークによる理論,観測,提案した計算解を実験的に検証した。
関連論文リスト
- Instance Selection for Dynamic Algorithm Configuration with Reinforcement Learning: Improving Generalization [16.49696895887536]
動的アルゴリズム構成(DAC)は、多様なインスタンスに対してアルゴリズムのハイパーパラメータを動的に設定するという課題に対処する。
Deep Reinforcement Learning (RL)でトレーニングされたエージェントは、そのような設定を解決するための経路を提供する。
我々は、過剰表現を克服するためにトレーニングインスタンスの代表的なサブセットを選択して、このサブセット上のエージェントを再訓練し、一般化性能を向上させることで、この問題を軽減するための一歩を踏み出した。
論文 参考訳(メタデータ) (2024-07-18T13:44:43Z) - Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - The Role of Diverse Replay for Generalisation in Reinforcement Learning [7.399291598113285]
強化学習における探索戦略とリプレイバッファが一般化に与える影響について検討する。
トレーニング環境からより多様なデータの収集とトレーニングを行うことで、ゼロショットの一般化が新しいタスクに改善されることが示される。
論文 参考訳(メタデータ) (2023-06-09T07:48:36Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Generalization Across Observation Shifts in Reinforcement Learning [13.136140831757189]
バイシミュレーションフレームワークを拡張して、コンテキスト依存の観察シフトを考慮します。
具体的には,シミュレータに基づく学習設定に焦点をあて,代替観測を用いて表現空間を学習する。
これにより、テスト期間中にエージェントをさまざまな監視設定にデプロイし、目に見えないシナリオに一般化することができます。
論文 参考訳(メタデータ) (2023-06-07T16:49:03Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。