論文の概要: Policy Manifold Search for Improving Diversity-based Neuroevolution
- arxiv url: http://arxiv.org/abs/2012.08676v1
- Date: Tue, 15 Dec 2020 23:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:08:29.301568
- Title: Policy Manifold Search for Improving Diversity-based Neuroevolution
- Title(参考訳): 多様性に基づく神経進化改善のための政策マニフォールド探索
- Authors: Nemanja Rakicevic, Antoine Cully and Petar Kormushev
- Abstract要約: ニューロエボリューションによる多様性に基づく政策探索の新たなアプローチを提案する。
当社のアプローチは品質多様性フレームワークに従ってポリシーを反復的に収集する。
我々は、逆変換のヤコビアンを用いて、潜在空間の探索を導く。
- 参考スコア(独自算出の注目度): 4.920145245773581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diversity-based approaches have recently gained popularity as an alternative
paradigm to performance-based policy search. A popular approach from this
family, Quality-Diversity (QD), maintains a collection of high-performing
policies separated in the diversity-metric space, defined based on policies'
rollout behaviours. When policies are parameterised as neural networks, i.e.
Neuroevolution, QD tends to not scale well with parameter space dimensionality.
Our hypothesis is that there exists a low-dimensional manifold embedded in the
policy parameter space, containing a high density of diverse and feasible
policies. We propose a novel approach to diversity-based policy search via
Neuroevolution, that leverages learned latent representations of the policy
parameters which capture the local structure of the data. Our approach
iteratively collects policies according to the QD framework, in order to (i)
build a collection of diverse policies, (ii) use it to learn a latent
representation of the policy parameters, (iii) perform policy search in the
learned latent space. We use the Jacobian of the inverse transformation
(i.e.reconstruction function) to guide the search in the latent space. This
ensures that the generated samples remain in the high-density regions of the
original space, after reconstruction. We evaluate our contributions on three
continuous control tasks in simulated environments, and compare to
diversity-based baselines. The findings suggest that our approach yields a more
efficient and robust policy search process.
- Abstract(参考訳): 多様性に基づくアプローチは最近、パフォーマンスベースのポリシー検索の代替パラダイムとして人気を集めています。
この家族のポピュラーなアプローチであるQD(Quality-Diversity)は、ポリシーのロールアウト行動に基づいて定義された多様性測定領域で分離されたハイパフォーマンスなポリシーの集合を維持している。
ポリシーがニューラルネットワークとしてパラメータ化される場合、すなわち
神経進化、QDはパラメータ空間次元とうまくスケールしない傾向がある。
我々の仮説は、ポリシーパラメータ空間に埋め込まれた低次元多様体が存在し、多様で実現可能なポリシーの密度が高いことである。
本稿では,局所的なデータ構造を捉えたポリシーパラメータの学習された潜在表現を活用するニューロ進化による多様性に基づくポリシー探索手法を提案する。
当社のアプローチは、qdフレームワークに従ってポリシーを反復的に収集し、(i)多様なポリシーの集合を構築し、(ii)ポリシーパラメータの潜在表現を学習するためにそれを使用し、(iii)学習された潜在空間でポリシー検索を実行する。
我々は、逆変換(すなわち再構成関数)のヤコビアンを用いて、潜在空間の探索を導く。
これにより、生成されたサンプルが復元後の元の空間の高密度領域に残ることが保証される。
シミュレーション環境における3つの連続制御タスクに対する貢献を評価し,多様性ベースのベースラインと比較した。
その結果,我々のアプローチはより効率的で堅牢な政策探索プロセスをもたらすことが示唆された。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文 参考訳(メタデータ) (2021-04-27T18:52:03Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。