論文の概要: Reinforcement Learning-based Self-adaptive Differential Evolution through Automated Landscape Feature Learning
- arxiv url: http://arxiv.org/abs/2503.18061v1
- Date: Sun, 23 Mar 2025 13:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:36.411149
- Title: Reinforcement Learning-based Self-adaptive Differential Evolution through Automated Landscape Feature Learning
- Title(参考訳): 自動景観特徴学習による強化学習に基づく自己適応微分進化
- Authors: Hongshu Guo, Sijie Ma, Zechuan Huang, Yuzhi Hu, Zeyuan Ma, Xinglin Zhang, Yue-Jiao Gong,
- Abstract要約: 本稿ではメタ学習過程における自動特徴学習を支援するメタBBO手法を提案する。
我々は,マティーサ指数に基づく埋め込みを用いたアテンションベースニューラルネットワークを設計し,解人口を変換する。
また、多種多様なDEM演算子を含む包括的アルゴリズム構成空間を強化学習支援DACパラダイムに組み込む。
- 参考スコア(独自算出の注目度): 7.765689048808507
- License:
- Abstract: Recently, Meta-Black-Box-Optimization (MetaBBO) methods significantly enhance the performance of traditional black-box optimizers through meta-learning flexible and generalizable meta-level policies that excel in dynamic algorithm configuration (DAC) tasks within the low-level optimization, reducing the expertise required to adapt optimizers for novel optimization tasks. Though promising, existing MetaBBO methods heavily rely on human-crafted feature extraction approach to secure learning effectiveness. To address this issue, this paper introduces a novel MetaBBO method that supports automated feature learning during the meta-learning process, termed as RLDE-AFL, which integrates a learnable feature extraction module into a reinforcement learning-based DE method to learn both the feature encoding and meta-level policy. Specifically, we design an attention-based neural network with mantissa-exponent based embedding to transform the solution populations and corresponding objective values during the low-level optimization into expressive landscape features. We further incorporate a comprehensive algorithm configuration space including diverse DE operators into a reinforcement learning-aided DAC paradigm to unleash the behavior diversity and performance of the proposed RLDE-AFL. Extensive benchmark results show that co-training the proposed feature learning module and DAC policy contributes to the superior optimization performance of RLDE-AFL to several advanced DE methods and recent MetaBBO baselines over both synthetic and realistic BBO scenarios. The source codes of RLDE-AFL are available at https://github.com/GMC-DRL/RLDE-AFL.
- Abstract(参考訳): 近年,メタブラックボックス最適化(MetaBBO)手法は,メタ学習の柔軟性と,低レベル最適化における動的アルゴリズム構成(DAC)タスクに優れたメタレベルポリシーにより,従来のブラックボックスオプティマイザの性能を大幅に向上させ,新しい最適化タスクに最適化を適応させるために必要な専門知識を削減している。
有望ではあるが、既存のMetaBBO手法は、安全性を確保するために人為的な特徴抽出アプローチに大きく依存している。
本稿では,メタ学習過程における自動特徴学習を支援するメタBBO法を提案する。メタBBO法は,学習可能な特徴抽出モジュールを強化学習に基づくDEM法に統合し,特徴符号化とメタレベルポリシーの両方を学習する。
具体的には,低レベル最適化時の解人口と対応する目的値を表現的景観特徴に変換するために,マティーサ指数に基づく埋め込みを用いた注目型ニューラルネットワークを設計する。
さらに、多種多様なDEM演算子を含む包括的アルゴリズム構成空間を強化学習支援DACパラダイムに組み込んで、提案したRDDE-AFLの振る舞いの多様性と性能を解き放つ。
拡張ベンチマークの結果,提案した特徴学習モジュールとDACポリシを併用することにより,RLDE-AFLのより優れた最適化性能が得られた。
RLDE-AFLのソースコードはhttps://github.com/GMC-DRL/RLDE-AFLで公開されている。
関連論文リスト
- Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Meta Learning Black-Box Population-Based Optimizers [0.0]
人口ベースのブラックボックス一般化を推論するメタラーニングの利用を提案する。
メタロス関数は,学習アルゴリズムが検索動作を変更することを促進し,新たなコンテキストに容易に適合できることを示す。
論文 参考訳(メタデータ) (2021-03-05T08:13:25Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。