論文の概要: Distributed Ensembles of Reinforcement Learning Agents for Electricity
Control
- arxiv url: http://arxiv.org/abs/2208.14338v1
- Date: Tue, 30 Aug 2022 15:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:47:06.339812
- Title: Distributed Ensembles of Reinforcement Learning Agents for Electricity
Control
- Title(参考訳): 電気制御のための強化学習エージェントの分散アンサンブル
- Authors: Pierrick Pochelu, Serge G. Petiton, Bruno Conche
- Abstract要約: 深層強化学習は産業や研究用途で人気を集めている。
初期条件や非決定論に敏感である。
本稿では,RLエージェントのアンサンブルを効率的に構築する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (or just "RL") is gaining popularity for
industrial and research applications. However, it still suffers from some key
limits slowing down its widespread adoption. Its performance is sensitive to
initial conditions and non-determinism. To unlock those challenges, we propose
a procedure for building ensembles of RL agents to efficiently build better
local decisions toward long-term cumulated rewards. For the first time,
hundreds of experiments have been done to compare different ensemble
constructions procedures in 2 electricity control environments. We discovered
an ensemble of 4 agents improves accumulated rewards by 46%, improves
reproducibility by a factor of 3.6, and can naturally and efficiently train and
predict in parallel on GPUs and CPUs.
- Abstract(参考訳): 深層強化学習(あるいは単にRL)は、産業や研究用途で人気を集めている。
しかしそれでも、その普及を遅らせる重要な限界に悩まされている。
その性能は初期条件と非決定性に敏感である。
これらの課題を解決するために,RLエージェントのアンサンブルを構築し,長期的累積報酬に対するより良い局所決定を効率的に構築する手法を提案する。
2つの電気制御環境で異なるアンサンブル構成の手順を比較するために、数百の実験が初めて行われた。
我々は、4つのエージェントのアンサンブルが累積報酬を46%改善し、3.6倍の再現性を向上し、GPUやCPU上で自然に効率的にトレーニングし、並列に予測できることを発見した。
関連論文リスト
- Active Reinforcement Learning for Robust Building Control [0.0]
強化学習(Reinforcement Learning, RL)は、Atariゲーム、Goのゲーム、ロボット制御、ビルド最適化で大きな成功を収めた、最適な制御のための強力なツールである。
教師なし環境設計 (UED) は, エージェントが特別に選抜された環境において, 学習を支援するための訓練を行う, この問題に対する解決策として提案されている。
この結果から,ActivePLRはエネルギー使用量を最小限に抑えつつ,建物制御の際の快適さを最大化しながら,最先端のUEDアルゴリズムより優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2023-12-16T02:18:45Z) - Imitation Bootstrapped Reinforcement Learning [31.916571349600684]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。
IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文 参考訳(メタデータ) (2023-11-03T19:03:20Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Is Bang-Bang Control All You Need? Solving Continuous Control with
Bernoulli Policies [45.20170713261535]
我々は、訓練されたエージェントが、その空間の境界におけるアクションをしばしば好む現象を調査する。
通常のガウス分布を、各作用次元に沿った極性のみを考えるベルヌーイ分布に置き換える。
驚くべきことに、これはいくつかの継続的制御ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-03T22:45:55Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Decoupling Exploration and Exploitation in Reinforcement Learning [8.946655323517092]
本稿では、探索と搾取のための個別の政策を訓練するDecoupled RL(DeRL)を提案する。
複数種類の内因性報酬を持つ2つのスパース・リワード環境におけるDeRLアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-07-19T15:31:02Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。