論文の概要: Behavior-based Neuroevolutionary Training in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.07960v1
- Date: Mon, 17 May 2021 15:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:35:15.691576
- Title: Behavior-based Neuroevolutionary Training in Reinforcement Learning
- Title(参考訳): 強化学習における行動に基づく神経進化訓練
- Authors: J\"org Stork, Martin Zaefferer, Nils Eisler, Patrick Tichelmann,
Thomas Bartz-Beielstein, A. E. Eiben
- Abstract要約: 本稿では,神経進化的最適化と価値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。
この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。
その結果, 進化的手法のサンプル効率と学習速度を向上できることがわかった。
- 参考スコア(独自算出の注目度): 3.686320043830301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In addition to their undisputed success in solving classical optimization
problems, neuroevolutionary and population-based algorithms have become an
alternative to standard reinforcement learning methods. However, evolutionary
methods often lack the sample efficiency of standard value-based methods that
leverage gathered state and value experience. If reinforcement learning for
real-world problems with significant resource cost is considered, sample
efficiency is essential. The enhancement of evolutionary algorithms with
experience exploiting methods is thus desired and promises valuable insights.
This work presents a hybrid algorithm that combines topology-changing
neuroevolutionary optimization with value-based reinforcement learning. We
illustrate how the behavior of policies can be used to create distance and loss
functions, which benefit from stored experiences and calculated state values.
They allow us to model behavior and perform a directed search in the behavior
space by gradient-free evolutionary algorithms and surrogate-based
optimization. For this purpose, we consolidate different methods to generate
and optimize agent policies, creating a diverse population. We exemplify the
performance of our algorithm on standard benchmarks and a purpose-built
real-world problem. Our results indicate that combining methods can enhance the
sample efficiency and learning speed for evolutionary approaches.
- Abstract(参考訳): 古典的最適化問題の解決における未解決の成功に加え、神経進化的および人口ベースアルゴリズムは標準的な強化学習法に代わるものとなっている。
しかし、進化的手法はしばしば、収集された状態と価値経験を利用する標準値ベースの手法のサンプル効率を欠いている。
資源コストの大きい実世界の問題に対する強化学習を考慮すれば,サンプル効率は不可欠である。
進化的アルゴリズムと経験的手法の強化が望まれ、貴重な洞察を約束する。
本研究は,位相変化型神経進化最適化と値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。
本稿では,ストアドエクスペリエンスと計算された状態値の恩恵を受ける距離関数と損失関数を作成するために,ポリシの振る舞いをどのように利用するかを説明する。
それらは、勾配のない進化的アルゴリズムと代理に基づく最適化により、振る舞いをモデル化し、行動空間の方向探索を行うことができる。
この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。
我々は,標準ベンチマークにおけるアルゴリズムの性能と,目的とする実世界の問題を実証する。
以上の結果から,結合手法は進化的アプローチのサンプル効率と学習速度を向上できることが示唆された。
関連論文リスト
- Accelerating evolutionary exploration through language model-based transfer learning [7.4439048149751095]
本稿では,伝達学習と遺伝子発現プログラミングを統合する手法を提案する。
このフレームワークは自然言語処理技術を統合し、過去の最適化で探索された方程式から相関や繰り返しパターンを識別する。
本結果は,移動学習機構によって導出された初期解が,改良された解に対するアルゴリズムの収束率を高めることを裏付けるものである。
論文 参考訳(メタデータ) (2024-06-07T08:05:52Z) - Model Uncertainty in Evolutionary Optimization and Bayesian Optimization: A Comparative Analysis [5.6787965501364335]
ブラックボックス最適化問題は、多くの現実世界のアプリケーションで一般的な問題である。
これらの問題はインプット・アウトプット・インタラクションを通じて内部動作へのアクセスなしに最適化する必要がある。
このような問題に対処するために2つの広く使われている勾配のない最適化手法が用いられている。
本稿では,2つの手法間のモデル不確実性の類似点と相違点を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-03-21T13:59:19Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Distilling Knowledge from Resource Management Algorithms to Neural
Networks: A Unified Training Assistance Approach [18.841969905928337]
本稿では,知識蒸留(KD)に基づくアルゴリズム蒸留(AD)法を提案する。
本研究は,無線通信システム最適化における従来の最適化洞察と新しいNN技術の統合の道を開くものである。
論文 参考訳(メタデータ) (2023-08-15T00:30:58Z) - Exploring Novel Quality Diversity Methods For Generalization in
Reinforcement Learning [0.0]
強化学習分野は成果に強く、再適用に弱い。
本稿では,ネットワークの学習方法が一般化を改善するかどうかを問う。
論文 参考訳(メタデータ) (2023-03-26T00:23:29Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。