論文の概要: Reinforcement learning based adaptive metaheuristics
- arxiv url: http://arxiv.org/abs/2206.12233v1
- Date: Fri, 24 Jun 2022 12:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 12:31:10.114693
- Title: Reinforcement learning based adaptive metaheuristics
- Title(参考訳): 強化学習に基づく適応的メタヒューリスティックス
- Authors: Michele Tessari, Giovanni Iacca
- Abstract要約: 本稿では,最先端強化学習アルゴリズムに基づく連続領域メタヒューリスティックスにおけるパラメータ適応のための汎用フレームワークを提案する。
CMA-ES(Covariance Matrix Adaptation Evolution Strategies)とDE(differial Evolution)の2つのアルゴリズムにおけるこのフレームワークの適用性を示す。
- 参考スコア(独自算出の注目度): 5.254093731341154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Parameter adaptation, that is the capability to automatically adjust an
algorithm's hyperparameters depending on the problem being faced, is one of the
main trends in evolutionary computation applied to numerical optimization.
While several handcrafted adaptation policies have been proposed over the years
to address this problem, only few attempts have been done so far at apply
machine learning to learn such policies. Here, we introduce a general-purpose
framework for performing parameter adaptation in continuous-domain
metaheuristics based on state-of-the-art reinforcement learning algorithms. We
demonstrate the applicability of this framework on two algorithms, namely
Covariance Matrix Adaptation Evolution Strategies (CMA-ES) and Differential
Evolution (DE), for which we learn, respectively, adaptation policies for the
step-size (for CMA-ES), and the scale factor and crossover rate (for DE). We
train these policies on a set of 46 benchmark functions at different
dimensionalities, with various inputs to the policies, in two settings: one
policy per function, and one global policy for all functions. Compared,
respectively, to the Cumulative Step-size Adaptation (CSA) policy and to two
well-known adaptive DE variants (iDE and jDE), our policies are able to produce
competitive results in the majority of cases, especially in the case of DE.
- Abstract(参考訳): パラメータ適応は、直面する問題に応じてアルゴリズムのハイパーパラメータを自動的に調整する能力であり、数値最適化に応用される進化的計算の主要なトレンドの1つである。
この問題に対処するために手作りの適応ポリシーが長年提案されてきたが、そのようなポリシーを学ぶために機械学習を適用する試みはごくわずかである。
本稿では,最先端強化学習アルゴリズムに基づく連続ドメインメタヒューリスティックスにおいてパラメータ適応を行う汎用フレームワークを提案する。
本研究では,共分散行列適応進化戦略(cma-es)と微分進化戦略(de),ステップサイズ(cma-es)の適応ポリシー,スケール係数とクロスオーバー率(de)の2つのアルゴリズムについて,このフレームワークの適用性を示す。
我々は、これらのポリシーを異なる次元の46のベンチマーク関数に訓練し、ポリシーへの様々なインプットを2つの設定(機能ごとに1つのポリシーと、すべての機能に対する1つのグローバルポリシー)で行います。
累積ステップサイズ適応 (CSA) 政策と2つのよく知られた適応型DE変種 (iDE と jDE) と比較して,我々の政策は,大半の場合,特に DE の場合において競争結果を生み出すことができる。
関連論文リスト
- Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Sharp high-probability sample complexities for policy evaluation with
linear function approximation [99.51752176624818]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Invariant Policy Optimization: Towards Stronger Generalization in
Reinforcement Learning [5.476958867922322]
強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。
本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
論文 参考訳(メタデータ) (2020-06-01T17:28:19Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。