論文の概要: Evolutionary Reinforcement Learning via Cooperative Coevolutionary
Negatively Correlated Search
- arxiv url: http://arxiv.org/abs/2009.03603v1
- Date: Tue, 8 Sep 2020 09:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 20:39:26.182935
- Title: Evolutionary Reinforcement Learning via Cooperative Coevolutionary
Negatively Correlated Search
- Title(参考訳): 協調進化的相関探索による進化的強化学習
- Authors: Hu Zhang, Peng Yang, Yanglong Yu, Mingjia Li, Ke Tang
- Abstract要約: 最近提案されたNegatively Correlated Search (NCS) は、異なる並列探索の動作を提供する。
本稿では, NCS の並列探索動作を保ちながら, NCS をスケールアップするための NCS フレンドリな協調的共進化フレームワークを提案する。
10の人気のあるアタリゲームに関する実証研究により、提案手法は、50%の計算時間で最先端の3つのRL法を著しく上回り得ることを示した。
- 参考スコア(独自算出の注目度): 25.052769220154783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary algorithms (EAs) have been successfully applied to optimize the
policies for Reinforcement Learning (RL) tasks due to their exploration
ability. The recently proposed Negatively Correlated Search (NCS) provides a
distinct parallel exploration search behavior and is expected to facilitate RL
more effectively. Considering that the commonly adopted neural policies usually
involves millions of parameters to be optimized, the direct application of NCS
to RL may face a great challenge of the large-scale search space. To address
this issue, this paper presents an NCS-friendly Cooperative Coevolution (CC)
framework to scale-up NCS while largely preserving its parallel exploration
search behavior. The issue of traditional CC that can deteriorate NCS is also
discussed. Empirical studies on 10 popular Atari games show that the proposed
method can significantly outperform three state-of-the-art deep RL methods with
50% less computational time by effectively exploring a 1.7 million-dimensional
search space.
- Abstract(参考訳): 進化的アルゴリズム(EA)は、探索能力により強化学習(RL)タスクの最適化に成功している。
近年提案されている負相関探索 (ncs) は, 並列探索の振る舞いを提供し, rlをより効果的に行うことが期待されている。
一般的に採用されているニューラルポリシーは、最適化される数百万のパラメータを必要とするため、NCSのRLへの直接適用は、大規模な検索空間において大きな課題に直面する可能性がある。
そこで本稿では, NCS の並列探索動作を保ちつつ, NCS をスケールアップするための NCS フレンドリな協調的共進化(Cooperative Coevolution, CC) フレームワークを提案する。
NCS を悪化させる従来の CC の問題についても論じる。
10の人気のあるアタリゲームに関する実証研究により、提案手法は170万次元の探索空間を効果的に探索することにより、50%少ない計算時間で最先端の3つのRL法を著しく上回り得ることを示した。
関連論文リスト
- Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark [69.19502244910632]
深部強化学習(RL)は、最適化(CO)問題を解く上で大きな利点を示している。
RL4COは,23の最先端メソッドと20以上のCO問題を含む,詳細なライブラリカバレッジを備えた統一ベンチマークである。
効率的なソフトウェアライブラリと実装のベストプラクティスに基づいて構築されたRL4COは、モジュール化された実装と、多様なRLアルゴリズム、ニューラルネットワークアーキテクチャ、推論技術、環境の柔軟な構成を備えている。
論文 参考訳(メタデータ) (2023-06-29T16:57:22Z) - Comparing NARS and Reinforcement Learning: An Analysis of ONA and
$Q$-Learning Algorithms [0.0]
強化学習(RL)は、機械学習におけるシーケンスベースのタスクを解決するための一般的なアプローチとして登場した。
注目を集めたそのような代替手段の1つは、汎用的な認知推論フレームワークである非軸性推論システム(NARS)である。
本稿では,シークエンスに基づく課題の解決におけるRLの代替として,NARSの可能性を探究する。
論文 参考訳(メタデータ) (2023-03-17T10:48:50Z) - Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。
本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文 参考訳(メタデータ) (2023-03-07T01:38:42Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Theoretically Principled Deep RL Acceleration via Nearest Neighbor
Function Approximation [25.915119322218928]
NN近似器は過去の観測のロールアウトを用いてアクション値を推定する。
古典的制御とMuJoCo移動タスクの実験により、NN加速剤はベースライン剤よりも高い試料効率と安定性が得られることが示された。
論文 参考訳(メタデータ) (2021-10-09T00:49:33Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Hierarchical Reinforcement Learning for Relay Selection and Power
Optimization in Two-Hop Cooperative Relay Network [7.5377621697101205]
本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。
我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。
階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-10T04:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。