論文の概要: Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution
- arxiv url: http://arxiv.org/abs/2104.13424v1
- Date: Tue, 27 Apr 2021 18:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:40:15.492443
- Title: Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution
- Title(参考訳): 政策マニフォールド探索 : 多様性に基づく神経進化のためのマニフォールド仮説の探索
- Authors: Nemanja Rakicevic, Antoine Cully, Petar Kormushev
- Abstract要約: 本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
- 参考スコア(独自算出の注目度): 4.920145245773581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neuroevolution is an alternative to gradient-based optimisation that has the
potential to avoid local minima and allows parallelisation. The main limiting
factor is that usually it does not scale well with parameter space
dimensionality. Inspired by recent work examining neural network intrinsic
dimension and loss landscapes, we hypothesise that there exists a
low-dimensional manifold, embedded in the policy network parameter space,
around which a high-density of diverse and useful policies are located. This
paper proposes a novel method for diversity-based policy search via
Neuroevolution, that leverages learned representations of the policy network
parameters, by performing policy search in this learned representation space.
Our method relies on the Quality-Diversity (QD) framework which provides a
principled approach to policy search, and maintains a collection of diverse
policies, used as a dataset for learning policy representations. Further, we
use the Jacobian of the inverse-mapping function to guide the search in the
representation space. This ensures that the generated samples remain in the
high-density regions, after mapping back to the original space. Finally, we
evaluate our contributions on four continuous-control tasks in simulated
environments, and compare to diversity-based baselines.
- Abstract(参考訳): 神経進化は勾配に基づく最適化の代替であり、局所的な極小化を避け、並列化を可能にする可能性がある。
主な制限因子は、通常、パラメータ空間の次元とうまくスケールしないことである。
近年のニューラルネットワークの固有次元とロスランドスケープを調査した研究に触発されて、多様な有用なポリシーの高密度が配置されるポリシーネットワークパラメータ空間に埋め込まれた低次元多様体が存在すると仮定した。
本稿では,この学習表現空間でポリシー探索を行うことで,政策ネットワークパラメータの学習表現を活用できる,ニューロ進化による多様性に基づく新しい政策探索手法を提案する。
本手法は,政策探索の原則的アプローチを提供する品質多様性(QD)フレームワークに依存し,政策表現の学習データセットとして使用される多種多様なポリシーの集合を維持する。
さらに、逆マッピング関数のヤコビアンを用いて表現空間の探索を導く。
これにより、生成されたサンプルは元の空間にマッピングした後、高密度領域に留まることが保証される。
最後に,シミュレーション環境における4つの連続制御タスクに対するコントリビューションを評価し,多様性に基づくベースラインと比較した。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms [69.87173070473717]
本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。
mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2021-04-10T13:52:27Z) - Policy Manifold Search for Improving Diversity-based Neuroevolution [4.920145245773581]
ニューロエボリューションによる多様性に基づく政策探索の新たなアプローチを提案する。
当社のアプローチは品質多様性フレームワークに従ってポリシーを反復的に収集する。
我々は、逆変換のヤコビアンを用いて、潜在空間の探索を導く。
論文 参考訳(メタデータ) (2020-12-15T23:59:49Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。