Fugu-MT 論文翻訳(概要): RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning

論文の概要: RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2404.08242v1
Date: Fri, 12 Apr 2024 05:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 15:55:31.067197
Title: RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning
Title（参考訳）: RLEMMO: 深層強化学習を支援する進化的マルチモーダル最適化
Authors: Hongqiao Lian, Zeyuan Ma, Hongshu Guo, Ting Huang, Yue-Jiao Gong,
Abstract要約: マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
参考スコア（独自算出の注目度）: 8.389454219309837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving multimodal optimization problems (MMOP) requires finding all optimal solutions, which is challenging in limited function evaluations. Although existing works strike the balance of exploration and exploitation through hand-crafted adaptive strategies, they require certain expert knowledge, hence inflexible to deal with MMOP with different properties. In this paper, we propose RLEMMO, a Meta-Black-Box Optimization framework, which maintains a population of solutions and incorporates a reinforcement learning agent for flexibly adjusting individual-level searching strategies to match the up-to-date optimization status, hence boosting the search performance on MMOP. Concretely, we encode landscape properties and evolution path information into each individual and then leverage attention networks to advance population information sharing. With a novel reward mechanism that encourages both quality and diversity, RLEMMO can be effectively trained using a policy gradient algorithm. The experimental results on the CEC2013 MMOP benchmark underscore the competitive optimization performance of RLEMMO against several strong baselines.
Abstract（参考訳）: マルチモーダル最適化問題 (MMOP) の解法には最適解の探索が必要である。既存の研究は手作りの適応戦略を通じて探索と搾取のバランスをとるが、専門家の知識を必要とするため、異なる特性でMMOPを扱うには柔軟性がない。本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。このフレームワークは,解の集団を維持するとともに,個人レベルの探索戦略を柔軟に調整し,最新の最適化状態に適合させ,MMOP上での探索性能を向上させるための強化学習エージェントを備えている。具体的には、ランドスケープ特性と進化経路情報を各個人にエンコードし、アテンションネットワークを活用して人口情報の共有を促進する。品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。 CEC2013 MMOPベンチマークの実験結果は、RLEMMOのいくつかの強力なベースラインに対する競合最適化性能を裏付けるものである。

関連論文リスト

Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。 MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文参考訳（メタデータ） (2025-05-20T03:59:05Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Reinforcement Learning-based Self-adaptive Differential Evolution through Automated Landscape Feature Learning [7.765689048808507]
本稿ではメタ学習過程における自動特徴学習を支援するメタBBO手法を提案する。我々は,マティーサ指数に基づく埋め込みを用いたアテンションベースニューラルネットワークを設計し,解人口を変換する。また、多種多様なDEM演算子を含む包括的アルゴリズム構成空間を強化学習支援DACパラダイムに組み込む。
論文参考訳（メタデータ） (2025-03-23T13:07:57Z)
PAIR: A Novel Large Language Model-Guided Selection Strategy for Evolutionary Algorithms [2.3244035825657963]
本稿では、PAIR(Preference-Aligned individual Reciprocity)を紹介する。 PAIRは人間に似た配偶者選択をエミュレートし、進化的アルゴリズム(EA)におけるペアリングプロセスにインテリジェンスを導入する
論文参考訳（メタデータ） (2025-03-05T07:45:56Z)
An LLM-Empowered Adaptive Evolutionary Algorithm For Multi-Component Deep Learning Systems [17.78934802009711]
多目的進化アルゴリズム(MOEA)は、複雑な多成分アプリケーションにおいて最適な解を求めるために広く用いられている。本稿では,MCDLシステムにおける安全性違反を検出する適応的進化探索アルゴリズムである$mu$MOEAを提案する。実験の結果,$mu$MOEAは進化探索の効率と多様性を著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2025-01-01T13:19:58Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
Deep Insights into Automated Optimization with Large Language Models and Evolutionary Algorithms [3.833708891059351]
大きな言語モデル(LLM)と進化的アルゴリズム(EA)は、制限を克服し、最適化をより自動化するための有望な新しいアプローチを提供する。 LLMは最適化戦略の生成、洗練、解釈が可能な動的エージェントとして機能する。 EAは進化作用素を通して、複雑な解空間を効率的に探索する。
論文参考訳（メタデータ） (2024-10-28T09:04:49Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文参考訳（メタデータ） (2024-04-12T09:22:24Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Large Language Models as Evolutionary Optimizers [37.92671242584431]
本稿では,大言語モデル(LLM)を進化論として初めて研究する。主な利点は、最小限のドメイン知識と人間の努力が必要であり、モデルに追加のトレーニングは必要ありません。また,進化探索における自己適応機構の有効性についても検討した。
論文参考訳（メタデータ） (2023-10-29T15:44:52Z)
Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文参考訳（メタデータ） (2022-06-14T16:35:58Z)
Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。 AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文参考訳（メタデータ） (2021-05-07T16:20:22Z)
Optimization-Inspired Learning with Architecture Augmentations and Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文参考訳（メタデータ） (2020-12-10T03:24:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。