論文の概要: Maximum Mutation Reinforcement Learning for Scalable Control
- arxiv url: http://arxiv.org/abs/2007.13690v7
- Date: Sat, 16 Jan 2021 23:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 05:48:14.812511
- Title: Maximum Mutation Reinforcement Learning for Scalable Control
- Title(参考訳): スケーラブル制御のための最大突然変異強化学習
- Authors: Karush Suri, Xiao Qi Shi, Konstantinos N. Plataniotis, Yuri A.
Lawryshyn
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模状態空間に対するデータ効率と最適制御を、スケーラブルな性能で実証している。
本稿では,スケーラブルなRLアルゴリズムであるEvolution-based Soft Actor-Critic (ESAC)を提案する。
- 参考スコア(独自算出の注目度): 25.935468948833073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in Reinforcement Learning (RL) have demonstrated data efficiency and
optimal control over large state spaces at the cost of scalable performance.
Genetic methods, on the other hand, provide scalability but depict
hyperparameter sensitivity towards evolutionary operations. However, a
combination of the two methods has recently demonstrated success in scaling RL
agents to high-dimensional action spaces. Parallel to recent developments, we
present the Evolution-based Soft Actor-Critic (ESAC), a scalable RL algorithm.
We abstract exploration from exploitation by combining Evolution Strategies
(ES) with Soft Actor-Critic (SAC). Through this lens, we enable dominant skill
transfer between offsprings by making use of soft winner selections and genetic
crossovers in hindsight and simultaneously improve hyperparameter sensitivity
in evolutions using the novel Automatic Mutation Tuning (AMT). AMT gradually
replaces the entropy framework of SAC allowing the population to succeed at the
task while acting as randomly as possible, without making use of
backpropagation updates. In a study of challenging locomotion tasks consisting
of high-dimensional action spaces and sparse rewards, ESAC demonstrates
improved performance and sample efficiency in comparison to the Maximum Entropy
framework. Additionally, ESAC presents efficacious use of hardware resources
and algorithm overhead. A complete implementation of ESAC can be found at
karush17.github.io/esac-web/.
- Abstract(参考訳): 強化学習(RL)の進歩は、スケーラブルなパフォーマンスを犠牲にして、大規模状態空間におけるデータ効率と最適制御を実証してきた。
一方、遺伝的手法はスケーラビリティを提供するが、進化的操作に対するハイパーパラメータ感度を示す。
しかし、この2つの手法の組み合わせは、最近rlエージェントを高次元のアクション空間にスケールすることに成功した。
近年の発展と並行して,スケーラブルなRLアルゴリズムであるEvolution-based Soft Actor-Critic (ESAC)を提案する。
進化戦略 (ES) とソフトアクター・クリティカル (SAC) を組み合わせることで, エクスプロイトからの探索を抽象化する。
このレンズにより、後視におけるソフト勝者選択と遺伝的交叉を利用して、子孫間の優越的なスキル伝達を可能にし、新規な自動突然変異チューニング(AMT)を用いた進化におけるハイパーパラメータ感度を同時に向上させる。
AMTは徐々にSACのエントロピーの枠組みに取って代わり、バックプロパゲーション更新を使わずに、可能な限りランダムに動作しながらタスクを成功させる。
高次元のアクション空間とスパース報酬からなる難解な移動タスクの研究において、ESACは最大エントロピーフレームワークと比較して性能とサンプル効率を改善した。
さらに、ESACはハードウェアリソースとアルゴリズムのオーバーヘッドを効果的に活用する。
ESACの完全な実装はkarush17.github.io/esac-web/で見ることができる。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Active learning for energy-based antibody optimization and enhanced screening [0.0]
本研究では,特定の目標に対するエネルギー関数を学習するために,ディープラーニングモデルを効率的に訓練する能動的学習ワークフローを提案する。
HER2結合型Trastuzumab変異株を対象としたケーススタディでは,ランダム選択よりもスクリーニング性能が有意に向上した。
論文 参考訳(メタデータ) (2024-09-17T08:01:58Z) - Trackable Agent-based Evolution Models at Wafer Scale [0.0]
我々は,85万プロセッサCerebras Wafer Scale Engine(WSE)のエージェントベース進化から系統情報を抽出する問題に焦点をあてる。
We present a asynchronous island-based genetic algorithm (GA) framework for WSE hardware。
本研究は,これらの治験の系統的再構成を検証し,根底にある進化状態の推測に適合することを示す。
論文 参考訳(メタデータ) (2024-04-16T19:24:14Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Transformers are Meta-Reinforcement Learners [0.060917028769172814]
本稿では,トランスアーキテクチャを用いたメモリ再配置機構を模倣したメタRLエージェントTrMRLを提案する。
本稿では,各層におけるベイズリスクを最小限に抑えるコンセンサス表現を自己注意で計算することを示す。
その結果, TrMRLは同等あるいは優れた性能, サンプル効率, アウト・オブ・ディストリビューションの一般化を示すことがわかった。
論文 参考訳(メタデータ) (2022-06-14T06:21:13Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Direct Mutation and Crossover in Genetic Algorithms Applied to
Reinforcement Learning Tasks [0.9137554315375919]
本稿では、遺伝的アルゴリズム(GA)を用いて神経進化を適用し、最適な行動エージェントを生成するニューラルネットワークの重みを見つけることに焦点を当てる。
本稿では,データ効率と収束速度を初期実装と比較して改善する2つの新しい修正法を提案する。
論文 参考訳(メタデータ) (2022-01-13T07:19:28Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Adam revisited: a weighted past gradients perspective [57.54752290924522]
本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
論文 参考訳(メタデータ) (2021-01-01T14:01:52Z) - EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm
for Constrained Global Optimization [68.8204255655161]
EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。
これはよく知られた微分進化(DE)アルゴリズムに多くの改良を加えている。
その結果、EOSisは、最先端の単一人口自己適応Dアルゴリズムと比較して高い性能を達成可能であることが証明された。
論文 参考訳(メタデータ) (2020-07-09T10:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。