Fugu-MT 論文翻訳(概要): SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

論文の概要: SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2007.04938v4
Date: Fri, 11 Jun 2021 21:00:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 03:04:37.556237
Title: SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning
Title（参考訳）: SUNRISE: 深層強化学習における学習を組み立てるシンプルな統一フレームワーク
Authors: Kimin Lee, Michael Laskin, Aravind Srinivas, Pieter Abbeel
Abstract要約: SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
参考スコア（独自算出の注目度）: 102.78958681141577
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Off-policy deep reinforcement learning (RL) has been successful in a range of challenging domains. However, standard off-policy RL algorithms can suffer from several issues, such as instability in Q-learning and balancing exploration and exploitation. To mitigate these issues, we present SUNRISE, a simple unified ensemble method, which is compatible with various off-policy RL algorithms. SUNRISE integrates two key ingredients: (a) ensemble-based weighted Bellman backups, which re-weight target Q-values based on uncertainty estimates from a Q-ensemble, and (b) an inference method that selects actions using the highest upper-confidence bounds for efficient exploration. By enforcing the diversity between agents using Bootstrap with random initialization, we show that these different ideas are largely orthogonal and can be fruitfully integrated, together further improving the performance of existing off-policy RL algorithms, such as Soft Actor-Critic and Rainbow DQN, for both continuous and discrete control tasks on both low-dimensional and high-dimensional environments. Our training code is available at https://github.com/pokaxpoka/sunrise.
Abstract（参考訳）: off-policy deep reinforcement learning(rl)は、さまざまな課題領域で成功を収めている。しかしながら、標準のオフポリシーrlアルゴリズムは、q-learningの不安定性や探索と搾取のバランスなど、いくつかの問題に苦しむ可能性がある。これらの問題を緩和するため,SUNRISEは単純な統一アンサンブル法であり,様々なオフポリティックRLアルゴリズムと互換性がある。 SUNRISEは2つの重要な材料を統合する。 (a) アンサンブルに基づく重み付きベルマンバックアップ(Qアンサンブルからの不確実性推定に基づくQ値の再重み付け) (b)高信頼度境界を用いた効率的な探索のための行動選択手法。ランダムな初期化を伴うBootstrapを用いてエージェント間の多様性を強制することにより、これらの異なるアイデアは概ね直交的であり、実効的に統合可能であることを示し、低次元および高次元の両方における連続的かつ離散的な制御タスクに対して、Soft Actor-CriticやRainbow DQNといった既存のオフポリティクスRLアルゴリズムの性能をさらに向上させる。私たちのトレーニングコードはhttps://github.com/pokaxpoka/sunriseで利用可能です。

関連論文リスト

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文参考訳（メタデータ） (2024-05-03T12:21:43Z)
Learning RL-Policies for Joint Beamforming Without Exploration: A Batch Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文参考訳（メタデータ） (2023-10-12T18:36:36Z)
Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-09-29T00:42:44Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文参考訳（メタデータ） (2021-12-30T22:02:42Z)
URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。 URLBは2つのフェーズで構成されている。評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文参考訳（メタデータ） (2021-10-28T15:07:01Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。