論文の概要: ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared
State Representation and Individual Policy Representation
- arxiv url: http://arxiv.org/abs/2210.17375v2
- Date: Fri, 30 Jun 2023 11:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 15:40:09.929891
- Title: ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared
State Representation and Individual Policy Representation
- Title(参考訳): ERL-Re$^2$:共有状態表現と個別政策表現による効率的な進化的強化学習
- Authors: Jianye Hao, Pengyi Li, Hongyao Tang, Yan Zheng, Xian Fu, Zhaopeng Meng
- Abstract要約: 2次元状態表現と政策表現を用いた進化的強化学習(ERL-Re$2$)を提案する。
すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら、同じ非線形状態表現を共有している。
一連の連続制御タスクの実験では、ERL-Re$2$は、高度ベースラインを一貫して上回り、最先端アート(SOTA)を達成する。
- 参考スコア(独自算出の注目度): 31.9768280877473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (Deep RL) and Evolutionary Algorithms (EA) are
two major paradigms of policy optimization with distinct learning principles,
i.e., gradient-based v.s. gradient-free. An appealing research direction is
integrating Deep RL and EA to devise new methods by fusing their complementary
advantages. However, existing works on combining Deep RL and EA have two common
drawbacks: 1) the RL agent and EA agents learn their policies individually,
neglecting efficient sharing of useful common knowledge; 2) parameter-level
policy optimization guarantees no semantic level of behavior evolution for the
EA side. In this paper, we propose Evolutionary Reinforcement Learning with
Two-scale State Representation and Policy Representation (ERL-Re$^2$), a novel
solution to the aforementioned two drawbacks. The key idea of ERL-Re$^2$ is
two-scale representation: all EA and RL policies share the same nonlinear state
representation while maintaining individual} linear policy representations. The
state representation conveys expressive common features of the environment
learned by all the agents collectively; the linear policy representation
provides a favorable space for efficient policy optimization, where novel
behavior-level crossover and mutation operations can be performed. Moreover,
the linear policy representation allows convenient generalization of policy
fitness with the help of the Policy-extended Value Function Approximator
(PeVFA), further improving the sample efficiency of fitness estimation. The
experiments on a range of continuous control tasks show that ERL-Re$^2$
consistently outperforms advanced baselines and achieves the State Of The Art
(SOTA). Our code is available on https://github.com/yeshenpy/ERL-Re2.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning、ディープRL)と進化的アルゴリズム(Evolutionary Algorithms、EA)は、異なる学習原理を持つ政策最適化の2つの主要なパラダイムである。
魅力的な研究方向は、Deep RLとEAを統合して、補完的な利点を融合して新しい方法を考案することである。
しかし、Deep RLとEAの組み合わせには2つの共通の欠点がある。
1) rlエージェント及びeaエージェントは、そのポリシーを個別に学習し、有用な共通知識の効率的な共有を怠る。
2) パラメータレベルのポリシー最適化は、ea側の行動進化の意味レベルを保証しません。
本稿では,上記の2つの欠点に対する新しい解法である2スケール状態表現とポリシー表現(erl-re$^2$)を用いた進化的強化学習を提案する。
ERL-Re$^2$の鍵となる考え方は2スケールの表現である: すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら同じ非線形状態表現を共有する。
状態表現は、すべてのエージェントが学習した環境の表現的共通特性を伝達する。線形政策表現は、新しい行動レベルのクロスオーバーと突然変異操作が可能な効率的な政策最適化のための好適な空間を提供する。
さらに、線形政策表現は、政策拡張値関数近似器(pevfa)の助けを借りて、政策適合性の簡便な一般化を可能にし、適合度推定のサンプル効率をさらに向上させる。
一連の連続制御タスクの実験により、ERL-Re$^2$は、高度ベースラインを一貫して上回り、最先端アート(SOTA)を達成することが示された。
私たちのコードはhttps://github.com/yeshenpy/erl-re2で利用可能です。
関連論文リスト
- Federated Offline Policy Optimization with Dual Regularization [12.320355780707168]
Federated Reinforcement Learning (FRL)は、モノのインターネット時代において、インテリジェントな意思決定のための有望なソリューションとみなされてきた。
既存のFRLアプローチは、しばしばローカル更新中に環境との繰り返しの相互作用を伴い、多くの現実世界のドメインでは違法に高価または不可能である。
本稿では、分散エージェントがプライベートデータと静的データのみから意思決定ポリシーを協調的に学習することを可能にする、新しいオフラインフェデレーション最適化アルゴリズムである$textttO$を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:24:03Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Evolutionary Action Selection for Gradient-based Policy Learning [6.282299638495976]
進化的アルゴリズム(EA)とDeep Reinforcement Learning(DRL)が最近組み合わされ、より優れたポリシー学習のための2つのソリューションの利点が統合された。
本稿では、EAとDRLの新たな組み合わせである進化的行動選択遅延Deep Deterministic Policy Gradient (EAS-TD3)を提案する。
論文 参考訳(メタデータ) (2022-01-12T03:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。