論文の概要: Keep Various Trajectories: Promoting Exploration of Ensemble Policies in
Continuous Control
- arxiv url: http://arxiv.org/abs/2310.11138v1
- Date: Tue, 17 Oct 2023 10:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 16:31:43.368641
- Title: Keep Various Trajectories: Promoting Exploration of Ensemble Policies in
Continuous Control
- Title(参考訳): 各種軌道の維持--連続制御におけるアンサンブル政策の推進
- Authors: Chao Li, Chen Gong, Qiang He, Xinwen Hou
- Abstract要約: 本研究ではTEENと呼ばれる新しいアンサンブルRLアルゴリズムを提案する。
TEENは、サブ政治のみを使用する場合と比較して、アンサンブル政策のサンプル多様性を高める。
TEENは、試験された代表環境において、ベースラインアンサンブルDRLアルゴリズムを平均41%向上させる。
- 参考スコア(独自算出の注目度): 17.64972760231609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of deep reinforcement learning (DRL) with ensemble methods
has been proved to be highly effective in addressing complex sequential
decision-making problems. This success can be primarily attributed to the
utilization of multiple models, which enhances both the robustness of the
policy and the accuracy of value function estimation. However, there has been
limited analysis of the empirical success of current ensemble RL methods thus
far. Our new analysis reveals that the sample efficiency of previous ensemble
DRL algorithms may be limited by sub-policies that are not as diverse as they
could be. Motivated by these findings, our study introduces a new ensemble RL
algorithm, termed \textbf{T}rajectories-awar\textbf{E} \textbf{E}nsemble
exploratio\textbf{N} (TEEN). The primary goal of TEEN is to maximize the
expected return while promoting more diverse trajectories. Through extensive
experiments, we demonstrate that TEEN not only enhances the sample diversity of
the ensemble policy compared to using sub-policies alone but also improves the
performance over ensemble RL algorithms. On average, TEEN outperforms the
baseline ensemble DRL algorithms by 41\% in performance on the tested
representative environments.
- Abstract(参考訳): 深部強化学習(DRL)とアンサンブル法の組み合わせは複雑な逐次決定問題に対処するのに非常に有効であることが証明されている。
この成功は主に、ポリシーの堅牢性と値関数推定の精度の両方を高める複数のモデルの利用に起因する。
しかし、現在のアンサンブルrl法の実証的成功については、これまでのところ限定的な分析がなされている。
我々の新しい分析によると、従来のアンサンブルDRLアルゴリズムのサンプル効率は、できるだけ多様でないサブ政治によって制限される可能性がある。
これらの知見に触発された本研究では,新しいアンサンブルRLアルゴリズム,すなわち,awar\textbf{E} \textbf{E}nsemble Exploratio\textbf{N} (TEEN) を導入する。
TEENの主な目標は、より多様な軌道を推進しながら、期待されるリターンを最大化することである。
広範な実験により,ティーンは,サブポリティシーのみを用いた場合に比べてアンサンブルポリシーのサンプル多様性を高めるだけでなく,アンサンブルrlアルゴリズムの性能を向上させることを実証した。
TEENは、試験された代表環境において、ベースラインアンサンブルDRLアルゴリズムを平均41倍の性能で上回る。
関連論文リスト
- Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - The Nature of Temporal Difference Errors in Multi-step Distributional
Reinforcement Learning [46.85801978792022]
分散RLに対する多段階オフポリシー学習手法について検討する。
経路依存分布TD誤差の新しい概念を同定する。
我々は, 深部RLエージェントQR-DQN-Retraceを導く新しいアルゴリズムQuantile Regression-Retraceを導出する。
論文 参考訳(メタデータ) (2022-07-15T16:19:23Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。