論文の概要: Using Automated Algorithm Configuration for Parameter Control
- arxiv url: http://arxiv.org/abs/2302.12334v2
- Date: Mon, 14 Aug 2023 12:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 22:27:16.201564
- Title: Using Automated Algorithm Configuration for Parameter Control
- Title(参考訳): パラメータ制御のための自動アルゴリズム構成法
- Authors: Deyao Chen, Maxim Buzdalov, Carola Doerr, Nguyen Dang
- Abstract要約: 動的アルゴリズム構成(DAC)は、データ駆動方式でアルゴリズムのパラメータを制御するためのポリシーを自動的に学習する方法の問題に取り組む。
我々は,OneMax問題を解くために,$(lambda,lambda)$Genetic Algorithmにおけるキーパラメータ$lambda$の制御を行う新しいDACベンチマークを提案する。
我々のアプローチは、十分に大きな問題サイズに関する以前の理論的研究から得られたベンチマークのデフォルトパラメータ制御ポリシーを一貫して上回ることができる。
- 参考スコア(独自算出の注目度): 0.7742297876120562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic Algorithm Configuration (DAC) tackles the question of how to
automatically learn policies to control parameters of algorithms in a
data-driven fashion. This question has received considerable attention from the
evolutionary community in recent years. Having a good benchmark collection to
gain structural understanding on the effectiveness and limitations of different
solution methods for DAC is therefore strongly desirable. Following recent work
on proposing DAC benchmarks with well-understood theoretical properties and
ground truth information, in this work, we suggest as a new DAC benchmark the
controlling of the key parameter $\lambda$ in the
$(1+(\lambda,\lambda))$~Genetic Algorithm for solving OneMax problems. We
conduct a study on how to solve the DAC problem via the use of (static)
automated algorithm configuration on the benchmark, and propose techniques to
significantly improve the performance of the approach. Our approach is able to
consistently outperform the default parameter control policy of the benchmark
derived from previous theoretical work on sufficiently large problem sizes. We
also present new findings on the landscape of the parameter-control search
policies and propose methods to compute stronger baselines for the benchmark
via numerical approximations of the true optimal policies.
- Abstract(参考訳): 動的アルゴリズム構成(DAC)は、データ駆動方式でアルゴリズムのパラメータを制御するためのポリシーを自動的に学習する方法の問題に取り組む。
この問題は近年、進化的コミュニティからかなりの注目を集めている。
したがって、DACの異なる解法の有効性と限界について構造的理解を得るための優れたベンチマーク収集が望ましい。
理論的性質と基底真理情報をよく理解したDACベンチマークを提案する最近の研究に続いて、我々は新しいDACベンチマークとして、OneMax問題を解決するための1+(\lambda,\lambda)$~Genetic Algorithmのキーパラメータを$\lambda$で制御することを提案している。
本稿では,ベンチマーク上での(静的な)自動アルゴリズム構成を用いてDAC問題の解法について検討し,アプローチの性能を大幅に向上させる手法を提案する。
我々のアプローチは、十分に大きな問題サイズに関する以前の理論的研究から得られたベンチマークのデフォルトパラメータ制御ポリシーを一貫して上回ることができる。
また,パラメータ制御サーチポリシの展望に関する新たな知見を提示し,真の最適ポリシーの数値近似を用いて,ベンチマークのより強力なベースラインを求める手法を提案する。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Automated Dynamic Algorithm Configuration [39.39845379026921]
アルゴリズムの性能は、しばしばパラメータの設定に依存する。
いくつかのアルゴリズムパラメータは実行時に動的に調整される。
有望な代替手段は、データからそのような動的パラメータ適応ポリシーを自動的に学習することである。
論文 参考訳(メタデータ) (2022-05-27T10:30:25Z) - Theory-inspired Parameter Control Benchmarks for Dynamic Algorithm
Configuration [32.055812915031666]
与えられたサイズの最適パラメータポートフォリオの計算方法を示す。
可能な値のポートフォリオのみからパラメータを選択できる最適制御ポリシーを解析することにより、このベンチマークを拡張します。
動的アルゴリズム構成のためのDDQN強化学習手法の挙動を解析することにより,ベンチマークの有用性を実証する。
論文 参考訳(メタデータ) (2022-02-07T15:00:30Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - DACBench: A Benchmark Library for Dynamic Algorithm Configuration [30.217571636151295]
既存のDACベンチマークを異なるAI領域から収集・標準化するベンチマークライブラリであるDACBenchを提案する。
DACの可能性,適用性,課題を示すために,6つの初期ベンチマークの集合が,いくつかの難易度でどのように比較されるかを検討する。
論文 参考訳(メタデータ) (2021-05-18T14:16:51Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - MATE: A Model-based Algorithm Tuning Engine [2.4693304175649304]
モデルに基づくアルゴリズム変換エンジン、すなわちMATEを導入し、アルゴリズムのパラメータを目標最適化問題の特徴の表現として表現する。
パラメータと問題の特徴の関係を象徴的回帰問題として求める問題を定式化し,遺伝子プログラミングを用いてこれらの表現を抽出する。
本評価では,OneMax,LeadingOnes,BinValue,Jumpの最適化問題に対して,(1+1) EAおよびRSSアルゴリズムの構成に適用する。
論文 参考訳(メタデータ) (2020-04-27T12:50:48Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。