論文の概要: Deep Reinforcement Learning-Assisted Automated Operator Portfolio for Constrained Multi-objective Optimization
- arxiv url: http://arxiv.org/abs/2603.16401v1
- Date: Tue, 17 Mar 2026 11:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.245838
- Title: Deep Reinforcement Learning-Assisted Automated Operator Portfolio for Constrained Multi-objective Optimization
- Title(参考訳): 制約付き多目的最適化のための深層強化学習支援自動演算子ポートフォリオ
- Authors: Shuai Shao, Ye Tian, Shangshang Yang, Xingyi Zhang,
- Abstract要約: 制約付き多目的最適化問題(CMOP)は、実用的応用の文脈において非常に重要である。
既存の制約付き多目的進化アルゴリズム(CMOEA)は通常、常に固定演算子を用いる。
本稿では,各世代における演算子の割り当て方式を学習するための強化学習に基づく自動演算子ポートフォリオ手法を提案する。
- 参考スコア(独自算出の注目度): 15.16105358303256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained multi-objective optimization problems (CMOPs) are of great significance in the context of practical applications, ranging from scientific to engineering domains. Most existing constrained multi-objective evolutionary algorithms (CMOEAs) usually employ fixed operators all the time, which exhibit poor versatility in handling various CMOPs. Therefore, some recent studies have focused on adaptively selecting the best operators for the current population states during the search process. The evolutionary algorithms proposed in these studies learn the value of each operator and recommend the operator with the highest value for the current population, resulting in only a single operator being recommended at each generation, which can potentially lead to local optima and inefficient utilization of function evaluations. To address the dilemma in operator adaptation, this paper proposes a reinforcement learning-based automated operator portfolio approach to learn an allocation scheme of operators at each generation. This approach considers the optimization-related and constraint-related features of the current population as states, the overall improvement in population convergence and diversity as rewards, and different operator portfolios as actions. By utilizing deep neural networks to establish a mapping model between the population states and the expected cumulative rewards, the proposed approach determines the optimal operator portfolio during the evolutionary process. By embedding the proposed approach into existing CMOEAs, a deep reinforcement learning-assisted automated operator portfolio based evolutionary algorithm for solving CMOPs, abbreviated as CMOEA-AOP, is developed. Empirical studies on 33 benchmark problems demonstrate that the proposed algorithm significantly enhances the performance of CMOEAs and exhibits more stable performance across different CMOPs.
- Abstract(参考訳): 制約付き多目的最適化問題(CMOP)は、科学分野から工学分野まで、実践的応用の文脈において非常に重要である。
既存の制約付き多目的進化アルゴリズム(CMOEA)は、通常、固定演算子を使い、様々なCMOPを扱いにくい。
そのため、近年の研究では、探索過程において、現在の人口状態の最適演算子を適応的に選択することに焦点を当てている。
これらの研究で提案される進化的アルゴリズムは,各演算子の価値を学習し,最大値の演算子を推薦する。
本稿では,演算子適応におけるジレンマに対処するため,各世代における演算子の割り当て方式を学習するための強化学習に基づく自動演算子ポートフォリオアプローチを提案する。
このアプローチは、現在の人口の最適化と制約に関連した特徴を国家として、人口収束と多様性の全体的な改善を報酬として、異なる運用ポートフォリオをアクションとして考察する。
深層ニューラルネットワークを用いて、人口状態と期待される累積報酬の間のマッピングモデルを確立することにより、提案手法は進化過程における最適演算子ポートフォリオを決定する。
提案手法を既存のCMOEAに組み込むことにより、CMOEA-AOPと略されるCMOPを解くための強化学習支援自動演算子ポートフォリオに基づく進化アルゴリズムを開発した。
33のベンチマーク問題に関する実証研究は、提案アルゴリズムがCMOEAの性能を大幅に向上し、異なるCMOPに対してより安定した性能を示すことを示した。
関連論文リスト
- AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization [61.535567824938205]
本稿では,LLMによる進化を階層的適応最適化問題として再構成するフレームワークであるAdaEvolveを紹介する。
AdaEvolveは185の異なるオープンエンド最適化問題において、オープンエンドベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-23T18:45:31Z) - Surrogate Ensemble in Expensive Multi-Objective Optimization via Deep Q-Learning [17.84264663466905]
サロゲート支援進化アルゴリズム(SAEA)は、高価な最適化問題を解く上で有望な堅牢性を示している。
SAEAsの有効性に影響を与える重要な側面は、モデル選択の代理である。
一つの最適化プロセス内で異なる代理モデルをスケジューリングできるSEEMOOと呼ばれる強化学習支援アンサンブルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-31T06:14:27Z) - SPOGW: a Score-based Preference Optimization method via Group-Wise comparison for workflows [23.667139832926225]
大規模言語モデル(LLM)は様々な分野、しばしばエージェントの使用を通じて、課題に対処する上で重要な能力を発揮している。
近年の研究では、建設に必要な人的介入を最小限に抑えることを目的としており、エージェントを最適化するための自動化技術の進歩につながっている。
SPOGWと呼ばれる新しいスコアベースの選好手法を導入し、グループワイド比較により、基数報酬信号を直接操作する。
論文 参考訳(メタデータ) (2025-10-05T08:26:29Z) - Experience-Guided Reflective Co-Evolution of Prompts and Heuristics for Automatic Algorithm Design [124.54166764570972]
組合せ最適化問題は伝統的に手作りのアルゴリズムで取り組まれている。
最近の進歩は、大規模言語モデルによる自動設計の可能性を強調している。
本稿では,自動アルゴリズム設計のためのPmpt and Heuristics (EvoPH) を用いた経験進化的リフレクティブ・ガイドを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:24:09Z) - Un-evaluated Solutions May Be Valuable in Expensive Optimization [5.6787965501364335]
本稿では,選択段階における代理モデルによって予測される高品質で未評価なソリューションを取り入れた戦略的アプローチを提案する。
このアプローチは評価された解の分布を改善することを目的としており、それによってより優れた次世代の解を生成する。
論文 参考訳(メタデータ) (2024-12-05T04:06:30Z) - Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection [28.088046969822543]
本研究では,Deep Reinforcement Learningを支援するオンラインオペレータ選択フレームワークを提案する。
提案手法は,現在の状況に応じて個体群の改善を最大化する演算子を適応的に選択することができる。
このフレームワークは4つの人気のあるCMOEAに組み込まれ、42のベンチマーク問題で評価されている。
論文 参考訳(メタデータ) (2024-01-15T09:51:19Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Enhanced Innovized Repair Operator for Evolutionary Multi- and
Many-objective Optimization [5.885238773559015]
革新」とは、最適化問題においてパレート最適化(PO)ソリューションの一部または全部の共通関係を学習するタスクである。
近年の研究では、非支配的なソリューションの時系列配列もまた、問題の特徴を学習するのに使える有能なパターンを持っていることが示されている。
本稿では,Pareto-Optimal 集合に向けて,集団構成員を前進させるために必要な設計変数の修正を学習する機械学習(ML-)支援モデル手法を提案する。
論文 参考訳(メタデータ) (2020-11-21T10:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。