論文の概要: Detect and Act: Automated Dynamic Optimizer through Meta-Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2601.22542v1
- Date: Fri, 30 Jan 2026 04:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.2192
- Title: Detect and Act: Automated Dynamic Optimizer through Meta-Black-Box Optimization
- Title(参考訳): 検出と実行:メタブラックボックス最適化による動的最適化の自動化
- Authors: Zijian Gao, Yuanting Zhong, Zeyuan Ma, Yue-Jiao Gong, Hongshu Guo,
- Abstract要約: 本稿では,進化アルゴリズムにおける自動変分検出と自己適応を実現するための強化学習支援手法を提案する。
本手法は, 自動環境変動検出と自己適応により, 未知のDOPに対して一般化することができる。
- 参考スコア(独自算出の注目度): 19.31451943915537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Optimization Problems (DOPs) are challenging to address due to their complex nature, i.e., dynamic environment variation. Evolutionary Computation methods are generally advantaged in solving DOPs since they resemble dynamic biological evolution. However, existing evolutionary dynamic optimization methods rely heavily on human-crafted adaptive strategy to detect environment variation in DOPs, and then adapt the searching strategy accordingly. These hand-crafted strategies may perform ineffectively at out-of-box scenarios. In this paper, we propose a reinforcement learning-assisted approach to enable automated variation detection and self-adaption in evolutionary algorithms. This is achieved by borrowing the bi-level learning-to-optimize idea from recent Meta-Black-Box Optimization works. We use a deep Q-network as optimization dynamics detector and searching strategy adapter: It is fed as input with current-step optimization state and then dictates desired control parameters to underlying evolutionary algorithms for next-step optimization. The learning objective is to maximize the expected performance gain across a problem distribution. Once trained, our approach could generalize toward unseen DOPs with automated environment variation detection and self-adaption. To facilitate comprehensive validation, we further construct an easy-to-difficult DOPs testbed with diverse synthetic instances. Extensive benchmark results demonstrate flexible searching behavior and superior performance of our approach in solving DOPs, compared to state-of-the-art baselines.
- Abstract(参考訳): 動的最適化問題(DOP)は、その複雑な性質、すなわち動的環境変動に対処することが困難である。
進化的計算法は、動的生物学的進化に類似しているため、一般的にDOPを解くのに有利である。
しかし、既存の進化的動的最適化手法は、人為的な適応戦略に大きく依存し、DOPの環境変動を検出し、それに応じて探索戦略を適応させる。
これらの手作りの戦略は、アウト・オブ・ボックスのシナリオでは効果的に機能しない。
本稿では,進化アルゴリズムにおける自動変分検出と自己適応を実現するための強化学習支援手法を提案する。
これは、最近のMeta-Black-Box Optimization作業から、双方向の学習と最適化のアイデアを借りることによって実現される。
我々は、最適化ダイナミックス検出器および探索戦略アダプタとして深部Qネットワークを使用し、現在の最適化状態の入力として入力され、次に次の最適化のための進化的アルゴリズムに所望の制御パラメータを指示する。
学習の目的は、問題分布全体で期待されるパフォーマンス向上を最大化することである。
トレーニングを済ませば,自動環境変動検出と自己適応による未知のDOPへのアプローチが一般化される可能性がある。
包括的検証を容易にするため,多種多様な合成インスタンスを用いた簡易微分DOPを更に構築する。
拡張ベンチマークの結果は,DOPの解法において,最先端のベースラインと比較して,柔軟な探索行動と優れた性能を示した。
関連論文リスト
- Deep Reinforcement Learning-Assisted Component Auto-Configuration of Differential Evolution Algorithm for Constrained Optimization: A Foundation Model [12.957830806430733]
我々は、制約付き最適化問題(COP)に対処する微分進化法(DE)アルゴリズムにおいて、自動コンポーネント構成のための新しいフレームワークを導入する。
SuperDEは、ゼロショットで見えない問題に対して、最適な世代ごとの設定を推奨できる。
実験の結果,SuperDEはベンチマークテストスイートにおいて既存の最先端アルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-14T00:14:40Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - An accelerate Prediction Strategy for Dynamic Multi-Objective Optimization [7.272641346606365]
本稿では,進化的アルゴリズムフレームワークにおける予測戦略の高速化のための新しいアプローチを提案する。
本稿では,アルゴリズムの探索動作を予測・調整するために,二階微分を組み込んだ適応予測戦略を提案する。
標準DMOPのベンチマーク問題を用いて,提案手法の性能を4つの最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2024-10-08T08:13:49Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Solving Expensive Optimization Problems in Dynamic Environments with Meta-learning [32.41025515064283]
本稿では,高コストな動的最適化問題を解くための,シンプルなメタラーニングに基づく最適化フレームワークを提案する。
このフレームワークは柔軟性があり、任意の既製のサロゲートモデルをプラグイン形式で連続的に使用することができる。
いくつかの最先端アルゴリズムと比較して,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2023-10-19T07:42:51Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - A Data-Driven Evolutionary Transfer Optimization for Expensive Problems
in Dynamic Environments [9.098403098464704]
データ駆動、つまりサロゲート支援、進化的最適化は、高価なブラックボックス最適化問題に対処するための効果的なアプローチとして認識されている。
本稿では,データ駆動型進化的最適化により動的最適化問題を解くための,シンプルだが効果的な伝達学習フレームワークを提案する。
提案手法の有効性を実世界のケーススタディで実証した。
論文 参考訳(メタデータ) (2022-11-05T11:19:50Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。