論文の概要: Reinforcement learning based adaptive metaheuristics
- arxiv url: http://arxiv.org/abs/2206.12233v1
- Date: Fri, 24 Jun 2022 12:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 12:31:10.114693
- Title: Reinforcement learning based adaptive metaheuristics
- Title(参考訳): 強化学習に基づく適応的メタヒューリスティックス
- Authors: Michele Tessari, Giovanni Iacca
- Abstract要約: 本稿では,最先端強化学習アルゴリズムに基づく連続領域メタヒューリスティックスにおけるパラメータ適応のための汎用フレームワークを提案する。
CMA-ES(Covariance Matrix Adaptation Evolution Strategies)とDE(differial Evolution)の2つのアルゴリズムにおけるこのフレームワークの適用性を示す。
- 参考スコア(独自算出の注目度): 5.254093731341154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Parameter adaptation, that is the capability to automatically adjust an
algorithm's hyperparameters depending on the problem being faced, is one of the
main trends in evolutionary computation applied to numerical optimization.
While several handcrafted adaptation policies have been proposed over the years
to address this problem, only few attempts have been done so far at apply
machine learning to learn such policies. Here, we introduce a general-purpose
framework for performing parameter adaptation in continuous-domain
metaheuristics based on state-of-the-art reinforcement learning algorithms. We
demonstrate the applicability of this framework on two algorithms, namely
Covariance Matrix Adaptation Evolution Strategies (CMA-ES) and Differential
Evolution (DE), for which we learn, respectively, adaptation policies for the
step-size (for CMA-ES), and the scale factor and crossover rate (for DE). We
train these policies on a set of 46 benchmark functions at different
dimensionalities, with various inputs to the policies, in two settings: one
policy per function, and one global policy for all functions. Compared,
respectively, to the Cumulative Step-size Adaptation (CSA) policy and to two
well-known adaptive DE variants (iDE and jDE), our policies are able to produce
competitive results in the majority of cases, especially in the case of DE.
- Abstract(参考訳): パラメータ適応は、直面する問題に応じてアルゴリズムのハイパーパラメータを自動的に調整する能力であり、数値最適化に応用される進化的計算の主要なトレンドの1つである。
この問題に対処するために手作りの適応ポリシーが長年提案されてきたが、そのようなポリシーを学ぶために機械学習を適用する試みはごくわずかである。
本稿では,最先端強化学習アルゴリズムに基づく連続ドメインメタヒューリスティックスにおいてパラメータ適応を行う汎用フレームワークを提案する。
本研究では,共分散行列適応進化戦略(cma-es)と微分進化戦略(de),ステップサイズ(cma-es)の適応ポリシー,スケール係数とクロスオーバー率(de)の2つのアルゴリズムについて,このフレームワークの適用性を示す。
我々は、これらのポリシーを異なる次元の46のベンチマーク関数に訓練し、ポリシーへの様々なインプットを2つの設定(機能ごとに1つのポリシーと、すべての機能に対する1つのグローバルポリシー)で行います。
累積ステップサイズ適応 (CSA) 政策と2つのよく知られた適応型DE変種 (iDE と jDE) と比較して,我々の政策は,大半の場合,特に DE の場合において競争結果を生み出すことができる。
関連論文リスト
- Functional Acceleration for Policy Mirror Descent [42.08953240415424]
本稿では,PMDアルゴリズムの一般系に関数加速度を適用した。
機能的経路をとることで、我々のアプローチは政策パラメトリゼーションとは無関係になり、大規模最適化にも適用できる。
論文 参考訳(メタデータ) (2024-07-23T16:04:55Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Invariant Policy Optimization: Towards Stronger Generalization in
Reinforcement Learning [5.476958867922322]
強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。
本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
論文 参考訳(メタデータ) (2020-06-01T17:28:19Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。