論文の概要: LISPR: An Options Framework for Policy Reuse with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.14942v1
- Date: Tue, 29 Dec 2020 21:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:47:22.900824
- Title: LISPR: An Options Framework for Policy Reuse with Reinforcement Learning
- Title(参考訳): LISPR:強化学習による政策再利用のためのオプションフレームワーク
- Authors: Daniel Graves, Jun Jin, Jun Luo
- Abstract要約: 本稿では,既存のポリシを潜在的に未知のソースMDPからターゲットMDPに転送するフレームワークを提案する。
このフレームワークは、(サブ)最適なソースポリシーが与えられたスパース報酬問題で優れたパフォーマンスを発揮します。
- 参考スコア(独自算出の注目度): 10.843004122226299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for transferring any existing policy from a
potentially unknown source MDP to a target MDP. This framework (1) enables
reuse in the target domain of any form of source policy, including classical
controllers, heuristic policies, or deep neural network-based policies, (2)
attains optimality under suitable theoretical conditions, and (3) guarantees
improvement over the source policy in the target MDP. These are achieved by
packaging the source policy as a black-box option in the target MDP and
providing a theoretically grounded way to learn the option's initiation set
through general value functions. Our approach facilitates the learning of new
policies by (1) maximizing the target MDP reward with the help of the black-box
option, and (2) returning the agent to states in the learned initiation set of
the black-box option where it is already optimal. We show that these two
variants are equivalent in performance under some conditions. Through a series
of experiments in simulated environments, we demonstrate that our framework
performs excellently in sparse reward problems given (sub-)optimal source
policies and improves upon prior art in transfer methods such as continual
learning and progressive networks, which lack our framework's desirable
theoretical properties.
- Abstract(参考訳): 本稿では,既存のポリシを潜在的に未知のソースMDPからターゲットMDPに転送するフレームワークを提案する。
この枠組み(1)は、古典的コントローラ、ヒューリスティックポリシー、深層ニューラルネットワークに基づくポリシーを含む任意の種類のソースポリシーのターゲット領域における再利用を可能にし、(2)適切な理論条件下での最適性を達成し、(3)ターゲットmdpにおけるソースポリシーの改善を保証する。
これらは、ソースポリシーをターゲットのMDPにブラックボックスオプションとしてパッケージ化し、一般的な値関数を通じてオプションの開始セットを学習する理論的に基礎的な方法を提供することによって達成される。
提案手法は,(1)対象のMDP報酬をブラックボックスオプションの助けを借りて最大化し,(2)エージェントをブラックボックスオプションの学習開始セットの状態に戻すことによって,新たな政策の学習を容易にする。
この2つの変種は,ある条件下では同等の性能を示す。
シミュレーション環境における一連の実験を通じて、我々のフレームワークは、(準)最適ソースポリシーが与えられたスパース報酬問題において優れた性能を発揮し、連続学習やプログレッシブネットワークなどの転送手法における先行技術の改善を図っている。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。