論文の概要: Enabling surrogate-assisted evolutionary reinforcement learning via
policy embedding
- arxiv url: http://arxiv.org/abs/2301.13374v1
- Date: Tue, 31 Jan 2023 02:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:51:44.614738
- Title: Enabling surrogate-assisted evolutionary reinforcement learning via
policy embedding
- Title(参考訳): ポリシー埋め込みによる進化的強化学習の実現
- Authors: Lan Tang, Xiaxi Li, Jinyuan Zhang, Guiying Li, Peng Yang and Ke Tang
- Abstract要約: 本稿では,PE-SAERLフレームワークを提案する。
5つのアタリゲームにおける実験結果から,提案手法は4つの最先端アルゴリズムよりも効率的に動作可能であることが示された。
- 参考スコア(独自算出の注目度): 28.272572839321104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary Reinforcement Learning (ERL) that applying Evolutionary
Algorithms (EAs) to optimize the weight parameters of Deep Neural Network (DNN)
based policies has been widely regarded as an alternative to traditional
reinforcement learning methods. However, the evaluation of the iteratively
generated population usually requires a large amount of computational time and
can be prohibitively expensive, which may potentially restrict the
applicability of ERL. Surrogate is often used to reduce the computational
burden of evaluation in EAs. Unfortunately, in ERL, each individual of policy
usually represents millions of weights parameters of DNN. This high-dimensional
representation of policy has introduced a great challenge to the application of
surrogates into ERL to speed up training. This paper proposes a PE-SAERL
Framework to at the first time enable surrogate-assisted evolutionary
reinforcement learning via policy embedding (PE). Empirical results on 5 Atari
games show that the proposed method can perform more efficiently than the four
state-of-the-art algorithms. The training process is accelerated up to 7x on
tested games, comparing to its counterpart without the surrogate and PE.
- Abstract(参考訳): 深層ニューラルネットワーク(dnn)ベースのポリシーの重みパラメータを最適化するために進化的アルゴリズム(eas)を適用する進化的強化学習(erl)は、従来の強化学習法に代わるものとして広く認められてきた。
しかし、反復的に生成される集団の評価は通常、大量の計算時間を必要とし、ERLの適用性を制限する可能性があるため、違法なコストがかかる可能性がある。
サロゲートはEAの評価の計算負担を軽減するためにしばしば用いられる。
残念ながら、ERLでは、ポリシーの各個人は通常、DNNの数百万の重みパラメータを表現している。
この高次元の政策表現は、ERLにサロゲートを応用してトレーニングを高速化する大きな挑戦をもたらした。
本稿では,PE-SAERLフレームワークを初めて提案し,ポリシ埋め込み(PE)による代理支援による進化的強化学習を実現する。
5つのアタリゲームにおける実験結果から,提案手法は4つの最先端アルゴリズムよりも効率的に動作可能であることが示された。
トレーニングプロセスは、テストされたゲームで最大7倍加速され、surrogateやpeを使わないゲームと比較される。
関連論文リスト
- GPU-Accelerated Rule Evaluation and Evolution [10.60691612679966]
本稿では、進化的ルールに基づく機械学習(ERL)の効率性とスケーラビリティを高めるための革新的なアプローチを紹介する。
本稿では, AERL (Accelerated ERL) がこの問題を2つの方法で解決する手法を提案する。
まず、PyTorchフレームワーク内でのテンソル化表現によるGPU最適化ルールセットの採用により、AERLはボトルネックを緩和し、フィットネス評価を大幅に加速する。
第二に、AERLはバックプロパゲーションにより規則係数を微調整することでGPUをさらに活用し、探索空間探索を改善する。
論文 参考訳(メタデータ) (2024-06-03T22:24:12Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning [0.0]
アダプタは自然言語処理やコンピュータビジョンなどの教師あり学習コンテキストにおいて有効であることが証明されている。
本稿では,学習効率の向上とベースエージェントの改良を実証する,革新的な適応戦略を提案する。
提案するユニバーサルアプローチは、事前訓練されたニューラルネットワークだけでなく、ルールベースのエージェントとも互換性があり、人間の専門知識を統合する手段を提供する。
論文 参考訳(メタデータ) (2023-11-20T04:54:51Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - A reinforcement learning strategy for p-adaptation in high order solvers [0.0]
強化学習(Reinforcement Learning, RL)は、意思決定プロセスを自動化するための有望なアプローチである。
本稿では,高次解法を用いる場合の計算メッシュの順序を最適化するためのRL手法の適用について検討する。
論文 参考訳(メタデータ) (2023-06-14T07:01:31Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deep Networks with Fast Retraining [0.0]
本稿では,深層畳み込みニューラルネットワーク(DCNN)学習のための新しいMP逆ベース高速リトレーニング戦略を提案する。
各トレーニングでは、後進パスでトレーニングされた畳み込み層の数を制御するランダムな学習戦略が最初に利用される。
そこで,MP 逆ベースバッチ・バイ・バッチ・ラーニング・ストラテジーを開発し,産業規模の計算資源を使わずにネットワークを実装できるようにした。
論文 参考訳(メタデータ) (2020-08-13T15:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。