論文の概要: On the Power of Pre-training for Generalization in RL: Provable Benefits
and Hardness
- arxiv url: http://arxiv.org/abs/2210.10464v1
- Date: Wed, 19 Oct 2022 10:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 15:04:40.922682
- Title: On the Power of Pre-training for Generalization in RL: Provable Benefits
and Hardness
- Title(参考訳): RLにおける一般化のための事前学習の力について:確率的便益と硬さ
- Authors: Haotian Ye, Xiaoyu Chen, Liwei Wang, Simon S. Du
- Abstract要約: 強化学習(RL)の一般化は、目標環境に一般化する訓練中にエージェントを学習することを目的としている。
本稿では,RLの一般化を理論的側面から考察する。
対象環境との相互作用が許されていない場合、我々は得られる最善策が平均的な意味でほぼ最適であると証明し、この目標を達成するアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 47.09873295916592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in Reinforcement Learning (RL) aims to learn an agent during
training that generalizes to the target environment. This paper studies RL
generalization from a theoretical aspect: how much can we expect pre-training
over training environments to be helpful? When the interaction with the target
environment is not allowed, we certify that the best we can obtain is a
near-optimal policy in an average sense, and we design an algorithm that
achieves this goal. Furthermore, when the agent is allowed to interact with the
target environment, we give a surprising result showing that asymptotically,
the improvement from pre-training is at most a constant factor. On the other
hand, in the non-asymptotic regime, we design an efficient algorithm and prove
a distribution-based regret bound in the target environment that is independent
of the state-action space.
- Abstract(参考訳): 強化学習(RL)の一般化は、目標環境に一般化する訓練中にエージェントを学ぶことを目的としている。
本稿では,理論的な側面からrl一般化について考察する。
対象環境との相互作用が許されていない場合、我々は得られる最善策が平均的な意味でほぼ最適であると証明し、この目標を達成するアルゴリズムを設計する。
さらに, エージェントが対象環境と相互作用することが許された場合, 漸近的に事前学習による改善がほぼ一定であることを示す驚くべき結果が得られる。
一方,非漸近的なシステムでは,効率的なアルゴリズムを設計し,状態動作空間とは無関係な対象環境に拘束された分布に基づく後悔を証明する。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Evolving Curricula with Regret-Based Environment Design [37.70275057075986]
我々は、原則化された後悔に基づくカリキュラムで進化の力を活用することを提案する。
我々の手法はエージェントの能力の最前線で常にレベルを発生させることを試みており、その結果、単純から始まるがますます複雑になるキュリキュラが生まれる。
論文 参考訳(メタデータ) (2022-03-02T18:40:00Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。