Fugu-MT 論文翻訳(概要): Auto-configuring Exploration-Exploitation Tradeoff in Evolutionary Computation via Deep Reinforcement Learning

論文の概要: Auto-configuring Exploration-Exploitation Tradeoff in Evolutionary Computation via Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2404.08239v1
Date: Fri, 12 Apr 2024 04:48:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 15:55:31.070020
Title: Auto-configuring Exploration-Exploitation Tradeoff in Evolutionary Computation via Deep Reinforcement Learning
Title（参考訳）: 深層強化学習による進化計算における自動探索・探索トレードオフ
Authors: Zeyuan Ma, Jiacheng Chen, Hongshu Guo, Yining Ma, Yue-Jiao Gong,
Abstract要約: 進化計算(EC)アルゴリズムは、個人のグループを利用して最適解を協調的に探索する。本稿では,ECサーチプロセスを通じて,調査トレードオフ(EET)を自律的に設定し,適応する深層強化学習ベースのフレームワークを提案する。提案するフレームワークは,その単純さ,有効性,一般化性を特徴とし,多数の既存ECアルゴリズムを拡張できる可能性を秘めている。
参考スコア（独自算出の注目度）: 14.217528205889296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evolutionary computation (EC) algorithms, renowned as powerful black-box optimizers, leverage a group of individuals to cooperatively search for the optimum. The exploration-exploitation tradeoff (EET) plays a crucial role in EC, which, however, has traditionally been governed by manually designed rules. In this paper, we propose a deep reinforcement learning-based framework that autonomously configures and adapts the EET throughout the EC search process. The framework allows different individuals of the population to selectively attend to the global and local exemplars based on the current search state, maximizing the cooperative search outcome. Our proposed framework is characterized by its simplicity, effectiveness, and generalizability, with the potential to enhance numerous existing EC algorithms. To validate its capabilities, we apply our framework to several representative EC algorithms and conduct extensive experiments on the augmented CEC2021 benchmark. The results demonstrate significant improvements in the performance of the backbone algorithms, as well as favorable generalization across diverse problem classes, dimensions, and population sizes. Additionally, we provide an in-depth analysis of the EET issue by interpreting the learned behaviors of EC.
Abstract（参考訳）: 進化的計算(EC)アルゴリズムは、強力なブラックボックスオプティマイザとして知られ、個人のグループを活用して最適な解を求める。調査・探索トレードオフ(EET)はECにおいて重要な役割を担っているが、伝統的に手動で設計された規則によって統治されてきた。本稿では,EC検索プロセスを通じてEETを自律的に構成し,適応する,深層強化学習に基づくフレームワークを提案する。この枠組みにより、人口の異なる個人が、現在の検索状況に基づいて、グローバルおよびローカルな見習いに選択的に参加し、協力的な検索結果を最大化することができる。提案するフレームワークは,その単純さ,有効性,一般化性を特徴とし,多数の既存ECアルゴリズムを拡張できる可能性を秘めている。本手法をいくつかの代表的ECアルゴリズムに適用し,拡張型CEC2021ベンチマークで広範な実験を行った。その結果、バックボーンアルゴリズムの性能は大幅に向上し、様々な問題クラス、次元、人口規模にまたがる優れた一般化が得られた。さらに、ECの学習動作を解釈することで、EET問題の詳細な分析を行う。

関連論文リスト

Evolutionary Computation and Large Language Models: A Survey of Methods, Synergies, and Applications [2.080786995501611]
大規模言語モデル (LLM) と進化的計算 (EC) は、人工知能を進化させるための有望な道の1つである。本書は, LLMとECの相乗的ポテンシャルを考察し, 交点, 相補的強み, 新興アプリケーションについて概説する。
論文参考訳（メタデータ） (2025-05-21T16:48:28Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
Integrating Chaotic Evolutionary and Local Search Techniques in Decision Space for Enhanced Evolutionary Multi-Objective Optimization [1.8130068086063336]
本稿では,SOMMOP(Single-Objective Multi-Modal Optimization)とMOO(Multi-Objective Optimization)の両方に焦点を当てる。 SOMMOPではニッチ技術とカオス進化を統合し,ガウス突然変異を併用したパーシスタンス・クラスタリングを行った。 MOOでは,これらの手法を不確実性に基づく選択,適応的チューニングを組み込んだ包括的フレームワークに拡張し,決定論的群集に半径(R)の概念を導入する。
論文参考訳（メタデータ） (2024-11-12T15:18:48Z)
Instance Selection for Dynamic Algorithm Configuration with Reinforcement Learning: Improving Generalization [16.49696895887536]
動的アルゴリズム構成(DAC)は、多様なインスタンスに対してアルゴリズムのハイパーパラメータを動的に設定するという課題に対処する。 Deep Reinforcement Learning (RL)でトレーニングされたエージェントは、そのような設定を解決するための経路を提供する。我々は、過剰表現を克服するためにトレーニングインスタンスの代表的なサブセットを選択して、このサブセット上のエージェントを再訓練し、一般化性能を向上させることで、この問題を軽減するための一歩を踏み出した。
論文参考訳（メタデータ） (2024-07-18T13:44:43Z)
Evaluating Ensemble Methods for News Recommender Systems [50.90330146667386]
本稿では,Microsoft News データセット (MIND) において,様々な最先端アルゴリズムを組み合わさって優れた結果を得るために,アンサンブル手法をどのように利用できるかを示す。その結果,NRSアルゴリズムの組み合わせは,基礎学習者が十分に多様であることから,個々のアルゴリズムよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-06-23T13:40:50Z)
Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control [1.1404490220482764]
BROは、犬とヒューマノイドのタスクにおいて、ほぼ最適ポリシーを達成するためのモデルフリーのアルゴリズムである。 BROは最先端の結果を達成し、主要なモデルベースおよびモデルフリーアルゴリズムを著しく上回っている。 BROは、非常に難しい犬とヒューマノイドのタスクにおいて、ほぼ最適なポリシーを達成した最初のモデルなしアルゴリズムである。
論文参考訳（メタデータ） (2024-05-25T09:53:25Z)
Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection [28.088046969822543]
本研究では,Deep Reinforcement Learningを支援するオンラインオペレータ選択フレームワークを提案する。提案手法は,現在の状況に応じて個体群の改善を最大化する演算子を適応的に選択することができる。このフレームワークは4つの人気のあるCMOEAに組み込まれ、42のベンチマーク問題で評価されている。
論文参考訳（メタデータ） (2024-01-15T09:51:19Z)
Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。 Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文参考訳（メタデータ） (2023-10-04T12:52:56Z)
Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。 RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文参考訳（メタデータ） (2023-08-25T15:06:05Z)
On the Importance of Exploration for Generalization in Reinforcement Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文参考訳（メタデータ） (2023-06-08T18:07:02Z)
Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。 HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文参考訳（メタデータ） (2023-05-27T02:05:41Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Interactive Evolutionary Multi-Objective Optimization via Learning-to-Rank [8.421614560290609]
本稿では,関心の解(SOI)を対話的に見つけるために,嗜好に基づくEMOアルゴリズムを設計するためのフレームワークを開発する。 EMOの中核となる考え方は、人間をEMOのループに巻き込むことだ。何回か繰り返すと、DMは数人の現職候補者に対してフィードバックを求めるよう招待される。このような情報を集めることで、彼女の好みは学習からランクまでニューラルネットワークによって徐々に学習され、次にベースラインEMOアルゴリズムを導出するために応用される。
論文参考訳（メタデータ） (2022-04-06T06:34:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。