論文の概要: SEERL: Sample Efficient Ensemble Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.05209v2
- Date: Sun, 16 May 2021 13:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 05:48:23.346009
- Title: SEERL: Sample Efficient Ensemble Reinforcement Learning
- Title(参考訳): SEERL: 効率的なエンサンブル強化学習
- Authors: Rohan Saphal, Balaraman Ravindran, Dheevatsa Mudigere, Sasikanth
Avancha, Bharat Kaul
- Abstract要約: モデルフリー強化アルゴリズムのための新しいトレーニングおよびモデル選択フレームワークを提案する。
適切な多彩なポリシーの集合を学習し、選択することが、適切なアンサンブルのために必要であることを示す。
Atari 2600 と Mujoco では,本フレームワークはサンプリング効率が高く,計算コストも高く,SOTA(State-of-the-art)スコアよりも優れていた。
- 参考スコア(独自算出の注目度): 20.983016439055188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble learning is a very prevalent method employed in machine learning.
The relative success of ensemble methods is attributed to their ability to
tackle a wide range of instances and complex problems that require different
low-level approaches. However, ensemble methods are relatively less popular in
reinforcement learning owing to the high sample complexity and computational
expense involved in obtaining a diverse ensemble. We present a novel training
and model selection framework for model-free reinforcement algorithms that use
ensembles of policies obtained from a single training run. These policies are
diverse in nature and are learned through directed perturbation of the model
parameters at regular intervals. We show that learning and selecting an
adequately diverse set of policies is required for a good ensemble while
extreme diversity can prove detrimental to overall performance. Selection of an
adequately diverse set of policies is done through our novel policy selection
framework. We evaluate our approach on challenging discrete and continuous
control tasks and also discuss various ensembling strategies. Our framework is
substantially sample efficient, computationally inexpensive and is seen to
outperform state-of-the-art (SOTA) scores in Atari 2600 and Mujoco.
- Abstract(参考訳): アンサンブル学習は機械学習で非常に一般的な方法である。
アンサンブル手法の相対的な成功は、様々な低レベルアプローチを必要とする幅広いインスタンスや複雑な問題に取り組む能力に起因している。
しかし,多種多様なアンサンブルを得るのに必要なサンプル複雑性や計算コストが高いため,強化学習ではアンサンブル法が比較的一般的ではない。
本稿では,1回のトレーニング実行から得られるポリシのアンサンブルを用いたモデルフリー強化アルゴリズムのための新しいトレーニングおよびモデル選択フレームワークを提案する。
これらのポリシーは自然界において多様であり、モデルパラメータの正規区間での有向摂動を通じて学習される。
優れたアンサンブルには適切な多様性のあるポリシーセットの学習と選択が必要である一方で、極端な多様性は全体的なパフォーマンスに有害であることを示す。
適切な多様なポリシーの選択は、新しいポリシー選択フレームワークを通じて行われます。
我々は,離散的および連続的な制御タスクに挑戦するアプローチを評価し,様々なセンシング戦略について論じる。
Atari 2600 と Mujoco では,本フレームワークはサンプリング効率が高く,計算コストも高く,SOTA(State-of-the-art)スコアよりも優れていた。
関連論文リスト
- Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Multi-Task Learning with Summary Statistics [4.871473117968554]
様々な情報源からの要約統計を利用した柔軟なマルチタスク学習フレームワークを提案する。
また,Lepskiの手法の変種に基づく適応パラメータ選択手法を提案する。
この研究は、さまざまな領域にわたる関連するモデルをトレーニングするための、より柔軟なツールを提供する。
論文 参考訳(メタデータ) (2023-07-05T15:55:23Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。