論文の概要: RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.08242v1
- Date: Fri, 12 Apr 2024 05:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:55:31.067197
- Title: RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning
- Title(参考訳): RLEMMO: 深層強化学習を支援する進化的マルチモーダル最適化
- Authors: Hongqiao Lian, Zeyuan Ma, Hongshu Guo, Ting Huang, Yue-Jiao Gong,
- Abstract要約: マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
- 参考スコア(独自算出の注目度): 8.389454219309837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving multimodal optimization problems (MMOP) requires finding all optimal solutions, which is challenging in limited function evaluations. Although existing works strike the balance of exploration and exploitation through hand-crafted adaptive strategies, they require certain expert knowledge, hence inflexible to deal with MMOP with different properties. In this paper, we propose RLEMMO, a Meta-Black-Box Optimization framework, which maintains a population of solutions and incorporates a reinforcement learning agent for flexibly adjusting individual-level searching strategies to match the up-to-date optimization status, hence boosting the search performance on MMOP. Concretely, we encode landscape properties and evolution path information into each individual and then leverage attention networks to advance population information sharing. With a novel reward mechanism that encourages both quality and diversity, RLEMMO can be effectively trained using a policy gradient algorithm. The experimental results on the CEC2013 MMOP benchmark underscore the competitive optimization performance of RLEMMO against several strong baselines.
- Abstract(参考訳): マルチモーダル最適化問題 (MMOP) の解法には最適解の探索が必要である。
既存の研究は手作りの適応戦略を通じて探索と搾取のバランスをとるが、専門家の知識を必要とするため、異なる特性でMMOPを扱うには柔軟性がない。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。このフレームワークは,解の集団を維持するとともに,個人レベルの探索戦略を柔軟に調整し,最新の最適化状態に適合させ,MMOP上での探索性能を向上させるための強化学習エージェントを備えている。
具体的には、ランドスケープ特性と進化経路情報を各個人にエンコードし、アテンションネットワークを活用して人口情報の共有を促進する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
CEC2013 MMOPベンチマークの実験結果は、RLEMMOのいくつかの強力なベースラインに対する競合最適化性能を裏付けるものである。
関連論文リスト
- Deep Insights into Automated Optimization with Large Language Models and Evolutionary Algorithms [3.833708891059351]
大きな言語モデル(LLM)と進化的アルゴリズム(EA)は、制限を克服し、最適化をより自動化するための有望な新しいアプローチを提供する。
LLMは最適化戦略の生成、洗練、解釈が可能な動的エージェントとして機能する。
EAは進化作用素を通して、複雑な解空間を効率的に探索する。
論文 参考訳(メタデータ) (2024-10-28T09:04:49Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。
具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。
理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文 参考訳(メタデータ) (2024-04-12T09:22:24Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Large Language Models as Evolutionary Optimizers [37.92671242584431]
本稿では,大言語モデル(LLM)を進化論として初めて研究する。
主な利点は、最小限のドメイン知識と人間の努力が必要であり、モデルに追加のトレーニングは必要ありません。
また,進化探索における自己適応機構の有効性についても検討した。
論文 参考訳(メタデータ) (2023-10-29T15:44:52Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。