論文の概要: Reinforcement Learning-assisted Constraint Relaxation for Constrained Expensive Optimization
- arxiv url: http://arxiv.org/abs/2602.00532v1
- Date: Sat, 31 Jan 2026 05:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.240396
- Title: Reinforcement Learning-assisted Constraint Relaxation for Constrained Expensive Optimization
- Title(参考訳): 制約付き指数最適化のための強化学習支援制約緩和
- Authors: Qianhao Zhu, Sijie Ma, Zeyuan Ma, Hongshu Guo, Yue-Jiao Gong,
- Abstract要約: 本稿では,強化学習による学習効率,適応性,一般化可能な制約処理ポリシーを提案する。
具体的には、最適化されたマルコフ決定プロセスが最初に定式化され、最適化の動的特徴が与えられた場合、深いQネットワークベースのポリシーが制約緩和レベルを制御する。
このような適応的制約処理は、客観的なエクスプロイトと実現可能な地域指向の探索の間の柔軟なトレードオフを提供する。
- 参考スコア(独自算出の注目度): 14.12072551134237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Constraint handling plays a key role in solving realistic complex optimization problems. Though intensively discussed in the last few decades, existing constraint handling techniques predominantly rely on human experts' designs, which more or less fall short in utility towards general cases. Motivated by recent progress in Meta-Black-Box Optimization where automated algorithm design can be learned to boost optimization performance, in this paper, we propose learning effective, adaptive and generalizable constraint handling policy through reinforcement learning. Specifically, a tailored Markov Decision Process is first formulated, where given optimization dynamics features, a deep Q-network-based policy controls the constraint relaxation level along the underlying optimization process. Such adaptive constraint handling provides flexible tradeoff between objective-oriented exploitation and feasible-region-oriented exploration, and hence leads to promising optimization performance. We train our approach on CEC 2017 Constrained Optimization benchmark with limited evaluation budget condition (expensive cases) and compare the trained constraint handling policy to strong baselines such as recent winners in CEC/GECCO competitions. Extensive experimental results show that our approach performs competitively or even surpasses the compared baselines under either Leave-one-out cross-validation or ordinary train-test split validation. Further analysis and ablation studies reveal key insights in our designs.
- Abstract(参考訳): 制約処理は、現実的な複雑な最適化問題を解決する上で重要な役割を果たす。
過去数十年で激しい議論がなされたが、既存の制約処理技術は主に人間の専門家の設計に依存しており、これは一般的には実用性に欠ける。
メタブラックボックス最適化の最近の進歩により、最適化性能を向上させるために自動アルゴリズム設計を学習できるようになり、本論文では、強化学習による学習効率、適応性、一般化可能な制約処理ポリシーを提案する。
具体的には、最適化されたマルコフ決定プロセスが最初に定式化され、最適化の動的な特徴が与えられた場合、深いQネットワークベースのポリシーは、基礎となる最適化プロセスに沿って制約緩和レベルを制御する。
このような適応的制約処理は、目的指向のエクスプロイトと実現可能な地域指向の探索の間に柔軟なトレードオフをもたらし、その結果、有望な最適化性能をもたらす。
我々は, CEC 2017 の制約付き最適化ベンチマークにおいて, 限られた評価予算条件(試験ケース)でアプローチを訓練し, CEC/GECCO コンペティションにおける最近の優勝者など, 厳格なベースラインとトレーニングされた制約処理ポリシーを比較した。
大規模な実験結果から,本手法は,列車間分岐検証と通常の列車間分岐検証のいずれにおいても,比較ベースラインを競合的に,あるいは越える結果が得られた。
さらなる分析とアブレーション研究は、我々の設計における重要な洞察を明らかにしている。
関連論文リスト
- TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation [6.001574550157585]
オフ政治評価(OPE)とオフ政治学習(OPL)は、オフライン文脈における意思決定の基礎となる。
OPLの最近の進歩は、統計特性を改善したOPE推定器を最適化している。
この推定器中心のアプローチは、最適化ランドスケープに挑戦する、重要な現実的な障害を無視している、と我々は主張する。
論文 参考訳(メタデータ) (2025-09-03T16:25:45Z) - LLM-guided Chemical Process Optimization with a Multi-Agent Approach [8.714038047141202]
本稿では,最小限のプロセス記述から動作制約を自律的に推論するマルチエージェントLLMフレームワークを提案する。
当社のAutoGenベースのフレームワークは、制約生成、パラメータ検証、シミュレーション、最適化ガイダンスのための特別なエージェントを備えたOpenAIのo3モデルを採用しています。
論文 参考訳(メタデータ) (2025-06-26T01:03:44Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Advancing CMA-ES with Learning-Based Cooperative Coevolution for Scalable Optimization [12.899626317088885]
本稿では,先駆的な学習に基づく協調的共進化フレームワークであるLCCを紹介する。
LCCは最適化プロセス中に動的に分解戦略をスケジュールする。
最適化の効率性とリソース消費の観点からは、最先端のベースラインに対して、ある種のアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-04-24T14:09:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Self-Supervised Primal-Dual Learning for Constrained Optimization [19.965556179096385]
本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。
プリマル・デュアル・ラーニング(PDL, Primal-Dual Learning)は,事前解決した一連のインスタンスや,学習と推論のための最適化解法を必要としない自己指導型トレーニング手法である。
論文 参考訳(メタデータ) (2022-08-18T20:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。