論文の概要: SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.04938v4
- Date: Fri, 11 Jun 2021 21:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:04:37.556237
- Title: SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning
- Title(参考訳): SUNRISE: 深層強化学習における学習を組み立てるシンプルな統一フレームワーク
- Authors: Kimin Lee, Michael Laskin, Aravind Srinivas, Pieter Abbeel
- Abstract要約: SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
- 参考スコア(独自算出の注目度): 102.78958681141577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy deep reinforcement learning (RL) has been successful in a range of
challenging domains. However, standard off-policy RL algorithms can suffer from
several issues, such as instability in Q-learning and balancing exploration and
exploitation. To mitigate these issues, we present SUNRISE, a simple unified
ensemble method, which is compatible with various off-policy RL algorithms.
SUNRISE integrates two key ingredients: (a) ensemble-based weighted Bellman
backups, which re-weight target Q-values based on uncertainty estimates from a
Q-ensemble, and (b) an inference method that selects actions using the highest
upper-confidence bounds for efficient exploration. By enforcing the diversity
between agents using Bootstrap with random initialization, we show that these
different ideas are largely orthogonal and can be fruitfully integrated,
together further improving the performance of existing off-policy RL
algorithms, such as Soft Actor-Critic and Rainbow DQN, for both continuous and
discrete control tasks on both low-dimensional and high-dimensional
environments. Our training code is available at
https://github.com/pokaxpoka/sunrise.
- Abstract(参考訳): off-policy deep reinforcement learning(rl)は、さまざまな課題領域で成功を収めている。
しかしながら、標準のオフポリシーrlアルゴリズムは、q-learningの不安定性や探索と搾取のバランスなど、いくつかの問題に苦しむ可能性がある。
これらの問題を緩和するため,SUNRISEは単純な統一アンサンブル法であり,様々なオフポリティックRLアルゴリズムと互換性がある。
SUNRISEは2つの重要な材料を統合する。
(a) アンサンブルに基づく重み付きベルマンバックアップ(Qアンサンブルからの不確実性推定に基づくQ値の再重み付け)
(b)高信頼度境界を用いた効率的な探索のための行動選択手法。
ランダムな初期化を伴うBootstrapを用いてエージェント間の多様性を強制することにより、これらの異なるアイデアは概ね直交的であり、実効的に統合可能であることを示し、低次元および高次元の両方における連続的かつ離散的な制御タスクに対して、Soft Actor-CriticやRainbow DQNといった既存のオフポリティクスRLアルゴリズムの性能をさらに向上させる。
私たちのトレーニングコードはhttps://github.com/pokaxpoka/sunriseで利用可能です。
関連論文リスト
- Principled Penalty-based Methods for Bilevel Reinforcement Learning and
RLHF [92.98631843849503]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [13.013268095049236]
強化学習(Reinforcement Learning, RL)は、人工知能(Artificial General Intelligence, AGI)に繋がる重要な要素と考えられている。
しかしながら、RLはテスト環境と同じトレーニング環境を持つことでしばしば批判され、実世界でのRLの適用を妨げている。
この問題を解決するために、未知のテスト環境を含む可能性のある環境の組における最悪の性能を改善するために、分散ロバストRL(DRRL)を提案する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。