論文の概要: LISPR: An Options Framework for Policy Reuse with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.14942v1
- Date: Tue, 29 Dec 2020 21:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:47:22.900824
- Title: LISPR: An Options Framework for Policy Reuse with Reinforcement Learning
- Title(参考訳): LISPR:強化学習による政策再利用のためのオプションフレームワーク
- Authors: Daniel Graves, Jun Jin, Jun Luo
- Abstract要約: 本稿では,既存のポリシを潜在的に未知のソースMDPからターゲットMDPに転送するフレームワークを提案する。
このフレームワークは、(サブ)最適なソースポリシーが与えられたスパース報酬問題で優れたパフォーマンスを発揮します。
- 参考スコア(独自算出の注目度): 10.843004122226299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for transferring any existing policy from a
potentially unknown source MDP to a target MDP. This framework (1) enables
reuse in the target domain of any form of source policy, including classical
controllers, heuristic policies, or deep neural network-based policies, (2)
attains optimality under suitable theoretical conditions, and (3) guarantees
improvement over the source policy in the target MDP. These are achieved by
packaging the source policy as a black-box option in the target MDP and
providing a theoretically grounded way to learn the option's initiation set
through general value functions. Our approach facilitates the learning of new
policies by (1) maximizing the target MDP reward with the help of the black-box
option, and (2) returning the agent to states in the learned initiation set of
the black-box option where it is already optimal. We show that these two
variants are equivalent in performance under some conditions. Through a series
of experiments in simulated environments, we demonstrate that our framework
performs excellently in sparse reward problems given (sub-)optimal source
policies and improves upon prior art in transfer methods such as continual
learning and progressive networks, which lack our framework's desirable
theoretical properties.
- Abstract(参考訳): 本稿では,既存のポリシを潜在的に未知のソースMDPからターゲットMDPに転送するフレームワークを提案する。
この枠組み(1)は、古典的コントローラ、ヒューリスティックポリシー、深層ニューラルネットワークに基づくポリシーを含む任意の種類のソースポリシーのターゲット領域における再利用を可能にし、(2)適切な理論条件下での最適性を達成し、(3)ターゲットmdpにおけるソースポリシーの改善を保証する。
これらは、ソースポリシーをターゲットのMDPにブラックボックスオプションとしてパッケージ化し、一般的な値関数を通じてオプションの開始セットを学習する理論的に基礎的な方法を提供することによって達成される。
提案手法は,(1)対象のMDP報酬をブラックボックスオプションの助けを借りて最大化し,(2)エージェントをブラックボックスオプションの学習開始セットの状態に戻すことによって,新たな政策の学習を容易にする。
この2つの変種は,ある条件下では同等の性能を示す。
シミュレーション環境における一連の実験を通じて、我々のフレームワークは、(準)最適ソースポリシーが与えられたスパース報酬問題において優れた性能を発揮し、連続学習やプログレッシブネットワークなどの転送手法における先行技術の改善を図っている。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。
我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。
そして、推定報酬を最適化することで最適な政策を学ぶ。
論文 参考訳(メタデータ) (2025-01-14T12:33:02Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。