論文の概要: Deep Reinforcement Learning for Dynamic Algorithm Configuration: A Case Study on Optimizing OneMax with the (1+($λ$,$λ$))-GA
- arxiv url: http://arxiv.org/abs/2512.03805v1
- Date: Wed, 03 Dec 2025 13:54:41 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:03:29.286212
- Title: Deep Reinforcement Learning for Dynamic Algorithm Configuration: A Case Study on Optimizing OneMax with the (1+($λ$,$λ$))-GA
- Title(参考訳): 動的アルゴリズム構成のための深部強化学習: (1+($λ$,$λ$))-GAによるOneMax最適化の一事例
- Authors: Tai Nguyen, Phong Le, André Biedenkapp, Carola Doerr, Nguyen Dang,
- Abstract要約: OneMaxインスタンス上の(1+($$,$$$)-GAの集団サイズパラメータを体系的に制御する。
DDQNとPPOについて検討した結果,DACの有効性を抑える2つの根本的な課題が明らかになった。
DDQNエージェント探索を強化するために,報酬分布統計を利用した適応型報酬シフト機構を導入する。
- 参考スコア(独自算出の注目度): 3.5485296570255183
- License:
- Abstract: Dynamic Algorithm Configuration (DAC) studies the efficient identification of control policies for parameterized optimization algorithms. Numerous studies have leveraged the robustness of decision-making in Reinforcement Learning (RL) to address the optimization challenges in algorithm configuration. However, applying RL to DAC is challenging and often requires extensive domain expertise. We conduct a comprehensive study of deep-RL algorithms in DAC through a systematic analysis of controlling the population size parameter of the (1+($λ$,$λ$))-GA on OneMax instances. Our investigation of DDQN and PPO reveals two fundamental challenges that limit their effectiveness in DAC: scalability degradation and learning instability. We trace these issues to two primary causes: under-exploration and planning horizon coverage, each of which can be effectively addressed through targeted solutions. To address under-exploration, we introduce an adaptive reward shifting mechanism that leverages reward distribution statistics to enhance DDQN agent exploration, eliminating the need for instance-specific hyperparameter tuning and ensuring consistent effectiveness across different problem scales. In dealing with the planning horizon coverage problem, we demonstrate that undiscounted learning effectively resolves it in DDQN, while PPO faces fundamental variance issues that necessitate alternative algorithmic designs. We further analyze the hyperparameter dependencies of PPO, showing that while hyperparameter optimization enhances learning stability, it consistently falls short in identifying effective policies across various configurations. Finally, we demonstrate that DDQN equipped with our adaptive reward shifting strategy achieves performance comparable to theoretically derived policies with vastly improved sample efficiency, outperforming prior DAC approaches by several orders of magnitude.
- Abstract(参考訳): Dynamic Algorithm Configuration (DAC) はパラメータ化最適化アルゴリズムの制御ポリシーを効率的に同定する。
アルゴリズム構成における最適化課題に対処するために,強化学習(RL)における意思決定の堅牢性を活用する研究が数多く行われている。
しかし、DACにRLを適用することは困難であり、多くの場合、広範なドメインの専門知識を必要とする。
我々は,OneMax インスタンス上の (1+($λ$,$λ$))-GA の集団サイズパラメータの体系的解析により,DAC におけるディープRL アルゴリズムの総合的研究を行う。
DDQN と PPO について検討した結果,DAC のスケーラビリティ向上と学習不安定性の2つの基本的な課題が明らかになった。
我々はこれらの問題を2つの主要な原因、すなわち探索下地平線と計画的地平線の範囲にトレースし、それぞれが対象とするソリューションを通じて効果的に対処することができる。
そこで本研究では,DDQNエージェント探索に報酬分布統計を利用する適応型報酬シフト機構を導入し,インスタンス固有のハイパーパラメータチューニングの必要性を排除し,さまざまな問題スケールで一貫した効率性を確保する。
計画地平線被覆問題に対処するにあたっては,非分散学習がDDQNで効果的に解決するのに対し,PPOは代替的なアルゴリズム設計を必要とする基本的な分散問題に直面していることを示す。
さらに、PPOのハイパーパラメータ依存性を分析し、ハイパーパラメータ最適化によって学習安定性が向上するが、様々な構成における効果的なポリシーの特定には不適当であることを示す。
最後に,適応的な報酬シフト戦略を備えたDDQNが,サンプル効率を大幅に向上した理論上のポリシーに匹敵する性能を達成し,DAC以前のアプローチを数桁の精度で上回ることを示す。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Deep Reinforcement Learning Algorithms for Option Hedging [0.20482269513546458]
動的ヘッジの文脈における8つのDeep Reinforcement Learning (DRL)アルゴリズムの性能を比較した。
MCPGはブラック・スコイルズ・デルタ・ヘッジ・ベースラインを計算予算で上回る唯一のアルゴリズムである。
論文 参考訳(メタデータ) (2025-04-07T21:32:14Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - An Improved Artificial Fish Swarm Algorithm for Solving the Problem of
Investigation Path Planning [8.725702964289479]
多集団差分進化(DE-CAFSA)に基づくカオス人工魚群アルゴリズムを提案する。
適応的な視野とステップサイズ調整を導入し、ランダムな動作を2オプト操作に置き換え、カオス理論と準最適解を導入する。
実験結果から、DECAFSAは、異なる大きさの様々な公開データセット上で、他のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:35:51Z) - Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。
提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。
その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文 参考訳(メタデータ) (2022-11-01T21:33:46Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。