Fugu-MT 論文翻訳(概要): Multi-parameter Control for the (1+($λ$,$λ$))-GA on OneMax via Deep Reinforcement Learning

論文の概要: Multi-parameter Control for the (1+($λ$,$λ$))-GA on OneMax via Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.12982v1
Date: Mon, 19 May 2025 11:18:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.55606
Title: Multi-parameter Control for the (1+($λ$,$λ$))-GA on OneMax via Deep Reinforcement Learning
Title（参考訳）: 深層強化学習によるOneMax上の(1+($λ$,$λ$)-GAのマルチパラメータ制御
Authors: Tai Nguyen, Phong Le, Carola Doerr, Nguyen Dang,
Abstract要約: 我々は、最先端の深層強化学習技術がいかに優れた制御ポリシーを近似できるかを示す。我々は、既定理論推奨設定を一貫して上回る単純な制御ポリシーを導出する。
参考スコア（独自算出の注目度）: 4.482691140663255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is well known that evolutionary algorithms can benefit from dynamic choices of the key parameters that control their behavior, to adjust their search strategy to the different stages of the optimization process. A prominent example where dynamic parameter choices have shown a provable super-constant speed-up is the $(1+(\lambda,\lambda))$ Genetic Algorithm optimizing the OneMax function. While optimal parameter control policies result in linear expected running times, this is not possible with static parameter choices. This result has spurred a lot of interest in parameter control policies. However, many works, in particular theoretical running time analyses, focus on controlling one single parameter. Deriving policies for controlling multiple parameters remains very challenging. In this work we reconsider the problem of the $(1+(\lambda,\lambda))$ Genetic Algorithm optimizing OneMax. We decouple its four main parameters and investigate how well state-of-the-art deep reinforcement learning techniques can approximate good control policies. We show that although making deep reinforcement learning learn effectively is a challenging task, once it works, it is very powerful and is able to find policies that outperform all previously known control policies on the same benchmark. Based on the results found through reinforcement learning, we derive a simple control policy that consistently outperforms the default theory-recommended setting by $27\%$ and the irace-tuned policy, the strongest existing control policy on this benchmark, by $13\%$, for all tested problem sizes up to $40{,}000$.
Abstract（参考訳）: 進化的アルゴリズムは、それらの振る舞いを制御する主要なパラメータの動的選択の恩恵を受け、最適化プロセスの異なる段階に探索戦略を調整できることはよく知られている。 1+(\lambda,\lambda)$ Genetic Algorithm optimizing the OneMax function。最適パラメータ制御ポリシーは線形予測実行時間をもたらすが、静的パラメータ選択では不可能である。この結果、パラメータ制御ポリシーに多くの関心が寄せられた。しかし、多くの研究、特に理論的な実行時間解析は、1つのパラメータを制御することに重点を置いている。複数のパラメータを制御するためのポリシーの導出は、依然として非常に難しい。本研究では,1+(\lambda,\lambda)$ Genetic Algorithm optimizing OneMaxの問題を再考する。我々は4つの主要なパラメータを分離し、最先端の深層強化学習技術がいかに優れた制御ポリシーを近似できるかを調査する。深層強化学習を効果的に学習させることは難しい課題であるが、一度機能すると非常に強力で、以前知られていたすべてのコントロールポリシーを同じベンチマークで上回るポリシーを見つけることができる。強化学習によって得られた結果に基づいて、デフォルトの理論推奨設定を27 %$で一貫して上回る単純な制御ポリシーと、このベンチマーク上で最強の既存の制御ポリシーであるイラシ調整ポリシーを13 %$で、テスト済みのすべての問題サイズに対して最大40{,}000$で上回る単純な制御ポリシーを導出する。

関連論文リスト

Enhancing Parameter Control Policies with State Information [0.44241702149260353]
最適あるいは最適に近い制御ポリシーを導出する4つの新しいベンチマークを提案する。アルゴリズムの現在の状態に関する追加情報がどのようにパラメータの選択に役立てるかを検討する。
論文参考訳（メタデータ） (2025-07-11T07:31:48Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文参考訳（メタデータ） (2023-06-15T23:51:46Z)
Efficient Policy Iteration for Robust Markov Decision Processes via Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文参考訳（メタデータ） (2022-05-28T04:05:20Z)
Theory-inspired Parameter Control Benchmarks for Dynamic Algorithm Configuration [32.055812915031666]
与えられたサイズの最適パラメータポートフォリオの計算方法を示す。可能な値のポートフォリオのみからパラメータを選択できる最適制御ポリシーを解析することにより、このベンチマークを拡張します。動的アルゴリズム構成のためのDDQN強化学習手法の挙動を解析することにより,ベンチマークの有用性を実証する。
論文参考訳（メタデータ） (2022-02-07T15:00:30Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Lazy Parameter Tuning and Control: Choosing All Parameters Randomly From a Power-Law Distribution [8.34061303235504]
ほとんどの進化的アルゴリズムは複数のパラメータを持ち、その値は性能に大きな影響を及ぼす。そこで本研究では,各繰り返しにおけるパラメータの値を,適切にスケールされたパワー・ロー分布からランダムに選択する,遅延だが効果的な解を提案する。静的パラメータで知られている最高のパフォーマンスに匹敵する性能を保証する。
論文参考訳（メタデータ） (2021-04-14T09:17:18Z)
Self-Adjusting Population Sizes for Non-Elitist Evolutionary Algorithms: Why Success Rates Matter [0.0]
進化的アルゴリズム(EA)は、親や子孫のサイズや突然変異率など、いくつかのパラメータを持つ汎用的なオプティマイザである。最近の理論的研究により、自己調整パラメータ制御機構は離散的な問題においてEAの最高の静的パラメータよりも優れていることが示されている。
論文参考訳（メタデータ） (2021-04-12T16:44:54Z)
Hybridizing the 1/5-th Success Rule with Q-Learning for Controlling the Mutation Rate of an Evolutionary Algorithm [0.9281671380673306]
本研究では、よく知られた1/5成功規則とQ-ラーニングを組み合わせた新しいハイブリッドパラメータ制御手法を導入する。我々のHQLメカニズムは、[Rodionova et al., GECCO'19]でテストされたすべてのテクニックと同等または優れたパフォーマンスを達成できることを示します。
論文参考訳（メタデータ） (2020-06-19T09:12:49Z)
Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。 OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文参考訳（メタデータ） (2019-12-12T08:40:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。