論文の概要: When Is Generalizable Reinforcement Learning Tractable?
- arxiv url: http://arxiv.org/abs/2101.00300v1
- Date: Fri, 1 Jan 2021 19:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:16:50.505142
- Title: When Is Generalizable Reinforcement Learning Tractable?
- Title(参考訳): 一般化強化学習はいつ達成可能か?
- Authors: Dhruv Malik, Yuanzhi Li, Pradeep Ravikumar
- Abstract要約: 複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
- 参考スコア(独自算出の注目度): 74.87383727210705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents trained by reinforcement learning (RL) often fail to generalize beyond
the environment they were trained in, even when presented with new scenarios
that seem very similar to the training environment. We study the query
complexity required to train RL agents that can generalize to multiple
environments. Intuitively, tractable generalization is only possible when the
environments are similar or close in some sense. To capture this, we introduce
Strong Proximity, a structural condition which precisely characterizes the
relative closeness of different environments. We provide an algorithm which
exploits Strong Proximity to provably and efficiently generalize. We also show
that under a natural weakening of this condition, which we call Weak Proximity,
RL can require query complexity that is exponential in the horizon to
generalize. A key consequence of our theory is that even when the environments
share optimal trajectories, and have highly similar reward and transition
functions (as measured by classical metrics), tractable generalization is
impossible.
- Abstract(参考訳): 強化学習(RL)によって訓練されたエージェントは、トレーニング環境と非常によく似た新しいシナリオを提示しても、訓練された環境を超えた一般化に失敗することが多い。
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
直感的には、扱いやすい一般化は、ある意味で環境が似ているか近い場合にのみ可能である。
そこで本稿では,環境の相対的近さを正確に特徴付ける構造条件である強近接について述べる。
我々はStrong Proximityを利用して効率よく一般化するアルゴリズムを提案する。
また、Weak Proximity と呼ぶこの条件の自然な弱化の下では、RL は水平線上で指数関数的なクエリ複雑性を必要とする。
我々の理論の重要な結果は、環境が最適軌跡を共有していても(古典的計量によって測られるように)非常に類似した報酬や遷移関数を持つとしても、トラクタブルな一般化は不可能であるということである。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Zipfian environments for Reinforcement Learning [19.309119596790563]
シュキュード体験からしっかり学習することは、シミュレーションや研究室を超えてDeep RL手法を適用する上で重要な課題であることを示す。
エージェントの経験がZipfian(離散電力法則)分布によって異なる3つの相補的なRL環境を開発する。
この結果から, シュキュード・エクスペリエンスからの学習が, シミュレーションや実験室を超えて深部RL法を適用する上で重要な課題であることが示唆された。
論文 参考訳(メタデータ) (2022-03-15T19:59:10Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - How Transferable are the Representations Learned by Deep Q Agents? [13.740174266824532]
我々は、Deep Reinforcement Learningのサンプル複雑さの源泉について考察する。
我々は、移行学習の利点を、ゼロからポリシーを学ぶことと比較する。
転送による利点は、一般に非常に可変であり、タスクのペア間で非対称である。
論文 参考訳(メタデータ) (2020-02-24T00:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。