論文の概要: Learning Synthetic Environments for Reinforcement Learning with
Evolution Strategies
- arxiv url: http://arxiv.org/abs/2101.09721v3
- Date: Mon, 8 Feb 2021 15:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 07:01:30.207044
- Title: Learning Synthetic Environments for Reinforcement Learning with
Evolution Strategies
- Title(参考訳): 進化戦略を用いた強化学習のための学習環境
- Authors: Fabio Ferreira, Thomas Nierhoff, Frank Hutter
- Abstract要約: 本研究は強化学習のための学習エージェント非依存合成環境(ses)を探索する。
SEはターゲット環境のプロキシとして機能し、ターゲット環境上で直接トレーニングされた場合よりも効率的にエージェントをトレーニングできる。
本手法は,2つの離散的動作空間タスクに対してsesを学習でき,より堅牢に,最大60%のステップでエージェントを訓練できることを示す。
- 参考スコア(独自算出の注目度): 34.13101380723782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores learning agent-agnostic synthetic environments (SEs) for
Reinforcement Learning. SEs act as a proxy for target environments and allow
agents to be trained more efficiently than when directly trained on the target
environment. We formulate this as a bi-level optimization problem and represent
an SE as a neural network. By using Natural Evolution Strategies and a
population of SE parameter vectors, we train agents in the inner loop on
evolving SEs while in the outer loop we use the performance on the target task
as a score for meta-updating the SE population. We show empirically that our
method is capable of learning SEs for two discrete-action-space tasks
(CartPole-v0 and Acrobot-v1) that allow us to train agents more robustly and
with up to 60% fewer steps. Not only do we show in experiments with 4000
evaluations that the SEs are robust against hyperparameter changes such as the
learning rate, batch sizes and network sizes, we also show that SEs trained
with DDQN agents transfer in limited ways to a discrete-action-space version of
TD3 and very well to Dueling DDQN.
- Abstract(参考訳): 本研究は強化学習のための学習エージェント非依存合成環境(ses)を探索する。
SEはターゲット環境のプロキシとして機能し、ターゲット環境で直接トレーニングされた場合よりも効率的にエージェントをトレーニングできる。
これを二段階最適化問題として定式化し、SEをニューラルネットワークとして表現する。
自然進化戦略とSEパラメータベクトルの集団を用いて、進化するSEsの内ループにおいてエージェントを訓練する一方、外ループでは、SEの集団をメタ更新するためのスコアとしてターゲットタスクのパフォーマンスを使用する。
我々は2つの離散アクション空間タスク(CartPole-v0とAcrobot-v1)のSEを学習でき、エージェントをより堅牢かつ60%少ないステップで訓練できることを示した。
また, 学習速度, バッチサイズ, ネットワークサイズなど, SE がハイパーパラメータ変化に対して堅牢であることを示す実験に加えて, DDQN エージェントで訓練した SE が TD3 の離散処理空間バージョンに限定的に移行し, DDQN に非常によく対応していることを示す。
関連論文リスト
- Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Discovering Minimal Reinforcement Learning Environments [24.6408931194983]
強化学習(RL)エージェントは、通常、同じ環境で訓練され、評価される。
人間は試験を受ける前に本を勉強するなど、評価される前に専門的な環境で訓練することが多い。
論文 参考訳(メタデータ) (2024-06-18T13:19:26Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Learning Synthetic Environments and Reward Networks for Reinforcement
Learning [34.01695320809796]
本稿では,Reinforcement Learning (RL)エージェントを訓練するためのプロキシ環境モデルとして,Synthetic Environments(SE)とReward Networks(RN)を紹介する。
エージェントがSEのみに訓練された後、対応する実環境を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:55:59Z) - Learning Connectivity-Maximizing Network Configurations [123.01665966032014]
本稿では、専門家からコミュニケーションエージェントを配置することを学ぶ畳み込みニューラルネットワーク(CNN)を用いた教師あり学習手法を提案する。
我々は,標準ライントポロジやリングトポロジ,ランダムに生成された105万件のテストケース,トレーニング中に見えない大規模なチームについて,CNNのパフォーマンスを実証した。
トレーニング後,本システムは10~20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。
論文 参考訳(メタデータ) (2021-12-14T18:59:01Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。