論文の概要: Efficient Deep Reinforcement Learning via Adaptive Policy Transfer
- arxiv url: http://arxiv.org/abs/2002.08037v3
- Date: Mon, 25 May 2020 10:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 12:52:00.067510
- Title: Efficient Deep Reinforcement Learning via Adaptive Policy Transfer
- Title(参考訳): 適応的政策伝達による効率的な深層強化学習
- Authors: Tianpei Yang, Jianye Hao, Zhaopeng Meng, Zongzhang Zhang, Yujing Hu,
Yingfeng Cheng, Changjie Fan, Weixun Wang, Wulong Liu, Zhaodong Wang, and
Jiajie Peng
- Abstract要約: 強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
- 参考スコア(独自算出の注目度): 50.51637231309424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer Learning (TL) has shown great potential to accelerate Reinforcement
Learning (RL) by leveraging prior knowledge from past learned policies of
relevant tasks. Existing transfer approaches either explicitly computes the
similarity between tasks or select appropriate source policies to provide
guided explorations for the target task. However, how to directly optimize the
target policy by alternatively utilizing knowledge from appropriate source
policies without explicitly measuring the similarity is currently missing. In
this paper, we propose a novel Policy Transfer Framework (PTF) to accelerate RL
by taking advantage of this idea. Our framework learns when and which source
policy is the best to reuse for the target policy and when to terminate it by
modeling multi-policy transfer as the option learning problem. PTF can be
easily combined with existing deep RL approaches. Experimental results show it
significantly accelerates the learning process and surpasses state-of-the-art
policy transfer methods in terms of learning efficiency and final performance
in both discrete and continuous action spaces.
- Abstract(参考訳): 伝達学習(TL)は、過去の学習したタスクの方針から事前知識を活用することにより、強化学習(RL)を加速する大きな可能性を示している。
既存の転送アプローチは、タスク間の類似性を明示的に計算するか、ターゲットタスクに対するガイド付き探索を提供する適切なソースポリシーを選択する。
しかし、現在、類似性を明示的に測定することなく、適切なソースポリシーからの知識を代替して、ターゲットポリシーを直接最適化する方法が欠落している。
本稿では,このアイデアを生かしてRLを加速する新しい政策伝達フレームワーク(PTF)を提案する。
本フレームワークは,選択肢学習問題として多国間移動をモデル化することにより,対象政策の再利用が最善である時期と終了時期を学習する。
PTFは、既存の深いRLアプローチと簡単に組み合わせることができる。
実験の結果, 離散的かつ連続的な行動空間における学習効率と最終性能の観点から, 学習過程を著しく加速し, 最先端の政策伝達手法を超越した。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-15T00:53:03Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Faded-Experience Trust Region Policy Optimization for Model-Free Power
Allocation in Interference Channel [28.618312473850974]
政策強化学習技術により、エージェントは環境との相互作用を通じて最適な行動ポリシーを学習することができる。
人的意思決定のアプローチに触発されて、エージェントを増強して、最近学習したポリシーを記憶し、利用することで、収束速度の向上に取り組みます。
その結果,FE-TRPO では TRPO に比べて学習速度が約2倍になることがわかった。
論文 参考訳(メタデータ) (2020-08-04T17:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。