論文の概要: A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.00129v2
- Date: Wed, 27 Apr 2022 15:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 17:22:57.249163
- Title: A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement
Learning
- Title(参考訳): 進化的強化学習のためのサロゲート支援制御系
- Authors: Yuxing Wang, Tiantian Zhang, Yongzhe Chang, Bin Liang, Xueqian Wang,
Bo Yuan
- Abstract要約: 本研究では,Surrogate-assisted Controller (SC)を提案する。
鍵となる課題は、サロゲートによって導入された偽のミニマによって最適化プロセスが誤解されるのを防ぐことである。
OpenAI Gymプラットフォームによる6つの継続的制御タスクの実験は、SCがフィットネス評価のコストを大幅に削減できるだけでなく、オリジナルのハイブリッドフレームワークのパフォーマンスも向上できることを示している。
- 参考スコア(独自算出の注目度): 14.128178683323108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Reinforcement Learning (RL) and Evolutionary Algorithms
(EAs) aims at simultaneously exploiting the sample efficiency as well as the
diversity and robustness of the two paradigms. Recently, hybrid learning
frameworks based on this principle have achieved great success in various
challenging robot control tasks. However, in these methods, policies from the
genetic population are evaluated via interactions with the real environments,
limiting their applicability in computationally expensive problems. In this
work, we propose Surrogate-assisted Controller (SC), a novel and efficient
module that can be integrated into existing frameworks to alleviate the
computational burden of EAs by partially replacing the expensive policy
evaluation. The key challenge in applying this module is to prevent the
optimization process from being misled by the possible false minima introduced
by the surrogate. To address this issue, we present two strategies for SC to
control the workflow of hybrid frameworks. Experiments on six continuous
control tasks from the OpenAI Gym platform show that SC can not only
significantly reduce the cost of fitness evaluations, but also boost the
performance of the original hybrid frameworks with collaborative learning and
evolutionary processes.
- Abstract(参考訳): 強化学習(RL)と進化的アルゴリズム(EA)の統合は、2つのパラダイムの多様性と堅牢性を同時に活用することを目的としている。
近年,この原理に基づくハイブリッド学習フレームワークは,様々なロボット制御課題において大きな成功を収めている。
しかし、これらの手法では、遺伝的集団の政策は実際の環境との相互作用を通じて評価され、計算コストの高い問題に適用性が制限される。
本研究では,コストの高い政策評価を部分的に置き換えることで,EAの計算負担を軽減するために,既存のフレームワークに統合可能な,新規で効率的なモジュールであるSurrogate-assisted Controller (SC)を提案する。
このモジュールを適用する際の重要な課題は、サロゲートによって導入された偽のミニマによって最適化プロセスが誤解されるのを防ぐことである。
この問題に対処するために、SCがハイブリッドフレームワークのワークフローを制御するための2つの戦略を提案する。
OpenAI Gymプラットフォームによる6つの継続的制御タスクの実験は、SCがフィットネス評価のコストを大幅に削減できるだけでなく、協調学習と進化プロセスを備えたオリジナルのハイブリッドフレームワークのパフォーマンスも向上できることを示している。
関連論文リスト
- Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent
Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。
ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文 参考訳(メタデータ) (2024-01-25T07:47:49Z) - Imitation Learning based Alternative Multi-Agent Proximal Policy
Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance [15.498559530889839]
本稿では,分散学習に基づく代替的マルチエージェント・プロキシ・ポリシー最適化(IA-MAPPO)アルゴリズムを提案する。
擬似学習を利用して生成コントローラを分散化し,通信オーバーヘッドを低減し,スケーラビリティを向上させる。
シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能が示された。
論文 参考訳(メタデータ) (2023-11-06T06:58:16Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。