論文の概要: Adaptable Agent Populations via a Generative Model of Policies
- arxiv url: http://arxiv.org/abs/2107.07506v1
- Date: Thu, 15 Jul 2021 17:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:48:12.397642
- Title: Adaptable Agent Populations via a Generative Model of Policies
- Title(参考訳): 政策生成モデルによる適応型エージェント集団
- Authors: Kenneth Derek, Phillip Isola
- Abstract要約: 低次元の潜在空間をエージェントポリシー空間にマッピングする政策生成モデルを導入する。
本手法では,個別のポリシーパラメータを必要とせずに,エージェントポリシーの全集団を学習することができる。
我々は,オープンエンドグリッドワールドや2プレーヤサッカー環境など,様々な環境で生成モデルの能力をテストする。
- 参考スコア(独自算出の注目度): 29.790723543416405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the natural world, life has found innumerable ways to survive and often
thrive. Between and even within species, each individual is in some manner
unique, and this diversity lends adaptability and robustness to life. In this
work, we aim to learn a space of diverse and high-reward policies on any given
environment. To this end, we introduce a generative model of policies, which
maps a low-dimensional latent space to an agent policy space. Our method
enables learning an entire population of agent policies, without requiring the
use of separate policy parameters. Just as real world populations can adapt and
evolve via natural selection, our method is able to adapt to changes in our
environment solely by selecting for policies in latent space. We test our
generative model's capabilities in a variety of environments, including an
open-ended grid-world and a two-player soccer environment. Code,
visualizations, and additional experiments can be found at
https://kennyderek.github.io/adap/.
- Abstract(参考訳): 自然界では、生命は生き残り、しばしば繁栄する無数の方法を見出した。
種間や種内でさえ、それぞれの個体は何らかの方法で独特であり、この多様性は適応性と生命に頑健さを与える。
本研究は,任意の環境における多様かつ高水準な政策の空間を学習することを目的としている。
この目的のために、低次元の潜在空間をエージェントポリシー空間にマッピングするポリシーの生成モデルを導入する。
本手法では,個別のポリシーパラメータを使わずに,エージェントポリシーの集団全体を学習できる。
現実世界の人口が自然選択によって適応・進化できるのと同じように、我々の手法は潜在空間における政策を選択するだけで環境の変化に適応することができる。
我々は,オープンエンドグリッドワールドや2プレーヤサッカー環境など,様々な環境で生成モデルの能力をテストする。
コード、可視化、その他の実験はhttps://kennyderek.github.io/adap/で見ることができる。
関連論文リスト
- Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Learning a subspace of policies for online adaptation in Reinforcement
Learning [14.7945053644125]
制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。
訓練条件のバリエーションによく適合するRL法を開発する必要がある。
本稿では,列車時にテスト環境が不明な一般化環境に取り組む上で,最も簡単な方法を考える。
論文 参考訳(メタデータ) (2021-10-11T11:43:34Z) - Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文 参考訳(メタデータ) (2021-04-27T18:52:03Z) - Policy Manifold Search for Improving Diversity-based Neuroevolution [4.920145245773581]
ニューロエボリューションによる多様性に基づく政策探索の新たなアプローチを提案する。
当社のアプローチは品質多様性フレームワークに従ってポリシーを反復的に収集する。
我々は、逆変換のヤコビアンを用いて、潜在空間の探索を導く。
論文 参考訳(メタデータ) (2020-12-15T23:59:49Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Fast Adaptation via Policy-Dynamics Value Functions [41.738462615120326]
本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。
PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。
提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T16:47:56Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。