論文の概要: Periodic Intra-Ensemble Knowledge Distillation for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2002.00149v1
- Date: Sat, 1 Feb 2020 06:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:36:46.868857
- Title: Periodic Intra-Ensemble Knowledge Distillation for Reinforcement
Learning
- Title(参考訳): 強化学習のための周期的感覚内知識蒸留
- Authors: Zhang-Wei Hong, Prabhat Nagarajan, Guilherme Maeda
- Abstract要約: オフ・ポリティクス・アンサンブル強化学習(RL)法は,様々なベンチマークタスクにおいて顕著な結果を示した。
近年の研究は、専門家の政策を指導的手法で直接模倣することで、RLエージェントのより迅速な政策改善が可能になることを示唆している。
本研究では,環境下での行動にポリシーのアンサンブルを利用する学習フレームワークとして,周期的アンサンブル内知識蒸留(PIEKD)を提案する。
- 参考スコア(独自算出の注目度): 5.15450083725853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy ensemble reinforcement learning (RL) methods have demonstrated
impressive results across a range of RL benchmark tasks. Recent works suggest
that directly imitating experts' policies in a supervised manner before or
during the course of training enables faster policy improvement for an RL
agent. Motivated by these recent insights, we propose Periodic Intra-Ensemble
Knowledge Distillation (PIEKD). PIEKD is a learning framework that uses an
ensemble of policies to act in the environment while periodically sharing
knowledge amongst policies in the ensemble through knowledge distillation. Our
experiments demonstrate that PIEKD improves upon a state-of-the-art RL method
in sample efficiency on several challenging MuJoCo benchmark tasks.
Additionally, we perform ablation studies to better understand PIEKD.
- Abstract(参考訳): オフ政治アンサンブル強化学習(RL)法は,様々なRLベンチマークタスクにおいて顕著な結果を示した。
近年の研究は、専門家の政策を指導的手法で直接模倣することで、RLエージェントのより迅速な政策改善が可能になることを示唆している。
これらの知見により,本研究では,周期的アンサンブル内知識蒸留(PIEKD)を提案する。
PIEKDは、環境内での行動にポリシーのアンサンブルを使用する学習フレームワークであり、知識蒸留を通じて、アンサンブル内のポリシー間で定期的に知識を共有する。
実験により,PIEKDは,MuJoCoベンチマークタスクのサンプル効率において,最先端のRL法を改善した。
さらに,PIEKDの理解を深めるためにアブレーション研究を行った。
関連論文リスト
- Advances in Preference-based Reinforcement Learning: A Review [1.474723404975345]
嗜好に基づく強化学習(PbRL)は、人間の嗜好を数値的な報酬ではなく専門家からのフィードバックとして利用する。
我々はPbRLのスケーラビリティと効率を向上させる新しいアプローチを含む統一されたPbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:57:12Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Policy Optimization for Continuous Reinforcement Learning [5.549359079450178]
連続時間と空間の設定における強化学習(RL)について検討する。
我々は、職業時間(特に割引対象)の概念を発展させる。
性能差と局所近似式を効果的に導出する方法を示す。
論文 参考訳(メタデータ) (2023-05-30T09:59:04Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - What Matters In On-Policy Reinforcement Learning? A Large-Scale
Empirical Study [50.79125250286453]
オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。
しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。
これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。
我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
論文 参考訳(メタデータ) (2020-06-10T17:59:03Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。