論文の概要: Evolutionary Action Selection for Gradient-based Policy Learning
- arxiv url: http://arxiv.org/abs/2201.04286v1
- Date: Wed, 12 Jan 2022 03:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 15:19:58.625283
- Title: Evolutionary Action Selection for Gradient-based Policy Learning
- Title(参考訳): グラディエント型政策学習のための進化的行動選択
- Authors: Yan Ma, Tianxing Liu, Bingsheng Wei, Yi Liu, Kang Xu, Wei Li
- Abstract要約: 進化的アルゴリズム(EA)とDeep Reinforcement Learning(DRL)が最近組み合わされ、より優れたポリシー学習のための2つのソリューションの利点が統合された。
本稿では、EAとDRLの新たな組み合わせである進化的行動選択遅延Deep Deterministic Policy Gradient (EAS-TD3)を提案する。
- 参考スコア(独自算出の注目度): 6.282299638495976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary Algorithms (EAs) and Deep Reinforcement Learning (DRL) have
recently been combined to integrate the advantages of the two solutions for
better policy learning. However, in existing hybrid methods, EA is used to
directly train the policy network, which will lead to sample inefficiency and
unpredictable impact on the policy performance. To better integrate these two
approaches and avoid the drawbacks caused by the introduction of EA, we devote
ourselves to devising a more efficient and reasonable method of combining EA
and DRL. In this paper, we propose Evolutionary Action Selection-Twin Delayed
Deep Deterministic Policy Gradient (EAS-TD3), a novel combination of EA and
DRL. In EAS, we focus on optimizing the action chosen by the policy network and
attempt to obtain high-quality actions to guide policy learning through an
evolutionary algorithm. We conduct several experiments on challenging
continuous control tasks. The result shows that EAS-TD3 shows superior
performance over other state-of-art methods.
- Abstract(参考訳): 進化的アルゴリズム(EA)と深層強化学習(DRL)が最近組み合わされ、より良い政策学習のための2つのソリューションの利点が統合された。
しかし、既存のハイブリッド手法では、EAは政策ネットワークを直接訓練するために使われており、これは政策性能に対するサンプルの非効率性と予測不可能な影響をもたらす。
これら2つのアプローチをよりうまく統合し、EAの導入による欠点を避けるため、私たちは、EAとDRLを組み合わせるためのより効率的で合理的な方法の開発に取り組んだ。
本稿では,進化的行動選択遅延型Deep Deterministic Policy Gradient (EAS-TD3)を提案する。
EASでは,政策ネットワークが選択した行動の最適化に重点を置いて,進化的アルゴリズムによる政策学習を導くための高品質な行動の獲得を試みる。
我々は,連続制御タスクに挑戦する実験を複数実施する。
その結果,EAS-TD3は他の最先端手法よりも優れた性能を示した。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared
State Representation and Individual Policy Representation [31.9768280877473]
2次元状態表現と政策表現を用いた進化的強化学習(ERL-Re$2$)を提案する。
すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら、同じ非線形状態表現を共有している。
一連の連続制御タスクの実験では、ERL-Re$2$は、高度ベースラインを一貫して上回り、最先端アート(SOTA)を達成する。
論文 参考訳(メタデータ) (2022-10-26T10:34:48Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Adaptive strategy in differential evolution via explicit exploitation
and exploration controls [0.0]
本稿では,明示的適応スキーム (Ea scheme) という新しい戦略適応手法を提案する。
Eaスキームは複数の戦略を分離し、それらをオンデマンドで採用する。
ベンチマーク関数に関する実験的研究は、Eaスキームの有効性を示す。
論文 参考訳(メタデータ) (2020-02-03T09:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。