Fugu-MT 論文翻訳(概要): Evolving Populations of Diverse RL Agents with MAP-Elites

論文の概要: Evolving Populations of Diverse RL Agents with MAP-Elites

arxiv url: http://arxiv.org/abs/2303.12803v1
Date: Thu, 9 Mar 2023 19:05:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-25 02:41:38.306106
Title: Evolving Populations of Diverse RL Agents with MAP-Elites
Title（参考訳）: MAP-エリートを用いたRL多剤の集団発生
Authors: Thomas Pierrot and Arthur Flajolet
Abstract要約: 政策だけでなく,任意の強化学習(RL)アルゴリズムの利用を可能にするフレキシブルなフレームワークを導入する。我々は,多数のロボット制御問題に対する広範な数値実験を通じて,我々のフレームワークがもたらすメリットを実証する。
参考スコア（独自算出の注目度）: 1.5575376673936223
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Quality Diversity (QD) has emerged as a powerful alternative optimization paradigm that aims at generating large and diverse collections of solutions, notably with its flagship algorithm MAP-ELITES (ME) which evolves solutions through mutations and crossovers. While very effective for some unstructured problems, early ME implementations relied exclusively on random search to evolve the population of solutions, rendering them notoriously sample-inefficient for high-dimensional problems, such as when evolving neural networks. Follow-up works considered exploiting gradient information to guide the search in order to address these shortcomings through techniques borrowed from either Black-Box Optimization (BBO) or Reinforcement Learning (RL). While mixing RL techniques with ME unlocked state-of-the-art performance for robotics control problems that require a good amount of exploration, it also plagued these ME variants with limitations common among RL algorithms that ME was free of, such as hyperparameter sensitivity, high stochasticity as well as training instability, including when the population size increases as some components are shared across the population in recent approaches. Furthermore, existing approaches mixing ME with RL tend to be tied to a specific RL algorithm, which effectively prevents their use on problems where the corresponding RL algorithm fails. To address these shortcomings, we introduce a flexible framework that allows the use of any RL algorithm and alleviates the aforementioned limitations by evolving populations of agents (whose definition include hyperparameters and all learnable parameters) instead of just policies. We demonstrate the benefits brought about by our framework through extensive numerical experiments on a number of robotics control problems, some of which with deceptive rewards, taken from the QD-RL literature.
Abstract（参考訳）: 品質多様性(qd)は、大規模で多様なソリューションコレクションを生成することを目的とした強力な代替最適化パラダイムとして登場した。初期のME実装は、いくつかの非構造的な問題に対して非常に効果的であったが、ソリューションの集団を進化させるためにランダム検索にのみ依存しており、ニューラルネットワークの進化など、高次元問題に対するサンプル非効率が悪名高い。フォローアップは、ブラックボックス最適化(bbo)または強化学習(rl)から借用された技術を通してこれらの欠点に対処するために、勾配情報を利用して探索を導くことを検討する。高度な探索を必要とするロボット制御問題の解き放たれた状態性能とRLテクニックを混合する一方で、近年のアプローチでは、一部のコンポーネントが人口間で共有されるにつれて、MEが過度なパラメータ感度、高い確率性、およびトレーニング不安定性など、RLアルゴリズムに共通する制限を伴って、これらのME変種を悩ませた。さらに、MEとRLを混合する既存のアプローチは、特定のRLアルゴリズムと結びつく傾向にあり、対応するRLアルゴリズムが失敗する問題に対するそれらの使用を効果的に防止する。これらの欠点に対処するために、我々は任意のRLアルゴリズムの使用を可能にするフレキシブルなフレームワークを導入し、単にポリシーではなく、エージェントの個体群(ハイパーパラメータと全ての学習可能なパラメータを含む)を進化させることにより、上記の制限を緩和する。本研究は,ロボット工学の制御問題に対する広範囲な数値実験を通じて,我々のフレームワークがもたらした利点を実証する。

関連論文リスト

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文参考訳（メタデータ） (2025-09-10T16:46:11Z)
Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。 MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T02:31:52Z)
Synergizing Reinforcement Learning and Genetic Algorithms for Neural Combinatorial Optimization [25.633698252033756]
本稿では,DRLの学習効率をGAのグローバル検索能力と相乗化するための進化的拡張機構を提案する。 EAMは、学習されたポリシーからソリューションを生成し、クロスオーバーや突然変異といったドメイン固有の遺伝子操作によってそれらを精製することで機能する。 EAMは、アテンションモデル、POMO、SymNCOのような最先端のDRLソルバとシームレスに統合できる。
論文参考訳（メタデータ） (2025-06-11T05:17:30Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。 AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文参考訳（メタデータ） (2024-05-25T11:57:43Z)
Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文参考訳（メタデータ） (2024-03-31T09:25:28Z)
Hyperparameter Optimization for Multi-Objective Reinforcement Learning [0.27309692684728615]
強化学習(Reinforcement Learning, RL)は、複雑な問題に対処するための強力なアプローチである。近年,多目的強化学習(MORL)の導入により,RLの範囲が拡大した。実際には、このタスクは難しいことがしばしば証明され、これらのテクニックのデプロイが失敗に終わる。
論文参考訳（メタデータ） (2023-10-25T09:17:25Z)
Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文参考訳（メタデータ） (2022-10-18T06:34:52Z)
Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge Intelligence [76.96698721128406]
モバイルエッジコンピューティング(MEC)は、第5世代(5G)ネットワークなどにおける計算と遅延に敏感なタスクのための新しいパラダイムであると考えた。本稿では、フリー対応RLに関する総合的な研究レビューと、開発のための洞察を提供する。
論文参考訳（メタデータ） (2022-01-27T10:02:54Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文参考訳（メタデータ） (2020-09-03T10:04:06Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。