論文の概要: Can Reinforcement Learning for Continuous Control Generalize Across
Physics Engines?
- arxiv url: http://arxiv.org/abs/2010.14444v1
- Date: Tue, 27 Oct 2020 17:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:10:58.946404
- Title: Can Reinforcement Learning for Continuous Control Generalize Across
Physics Engines?
- Title(参考訳): 連続制御のための強化学習は物理エンジンを一般化できるか?
- Authors: Aaqib Parvez Mohammed and Matias Valdenegro-Toro
- Abstract要約: 強化学習アルゴリズムは環境についてできるだけ学習しなければならないが、環境を生成する物理エンジンの特性は学習すべきではない。
MuJoCoは学習を他のエンジンに移すのに最適なエンジンだ。
PyBulletでトレーニングされたアルゴリズムはどれも一般化していない。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms should learn as much as possible about
the environment but not the properties of the physics engines that generate the
environment. There are multiple algorithms that solve the task in a physics
engine based environment but there is no work done so far to understand if the
RL algorithms can generalize across physics engines. In this work, we compare
the generalization performance of various deep reinforcement learning
algorithms on a variety of control tasks. Our results show that MuJoCo is the
best engine to transfer the learning to other engines. On the other hand, none
of the algorithms generalize when trained on PyBullet. We also found out that
various algorithms have a promising generalizability if the effect of random
seeds can be minimized on their performance.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは可能な限り環境について学習すべきであるが、環境を生成する物理エンジンの特性ではない。
物理エンジンベースの環境でタスクを解決する複数のアルゴリズムがあるが、rlアルゴリズムが物理エンジンをまたいで一般化できるかどうかを理解するための作業はない。
本研究では,様々な制御タスクにおける各種深層強化学習アルゴリズムの一般化性能を比較する。
結果から,MuJoCoは他のエンジンに学習を移すのに最適なエンジンであることがわかった。
一方、PyBulletでトレーニングされたアルゴリズムは一般化されていない。
また,ランダムシードの効果を最小化できれば,様々なアルゴリズムが有望な一般化性を持つことがわかった。
関連論文リスト
- Multi-Objective Optimization Using Adaptive Distributed Reinforcement Learning [8.471466670802815]
本稿では,多目的・マルチエージェント強化学習(MARL)アルゴリズムを提案する。
我々はエッジクラウドコンピューティングを用いたITS環境でアルゴリズムをテストする。
また,本アルゴリズムは,モジュール化および非同期オンライントレーニング手法により,様々な実用上の問題にも対処する。
論文 参考訳(メタデータ) (2024-03-13T18:05:16Z) - Curiosity-Driven Reinforcement Learning based Low-Level Flight Control [95.42181254494287]
本研究では,オドメトリデータから適切な運動速度を生成することにより,自律学習のための好奇心の駆動に基づくアルゴリズムを提案する。
探索パターンの進化における好奇心の効果を可視化したアルゴリズムとアルゴリズムを用いて、オン・ポリティ、オフ・ポリティ、オン・ポリティ、オン・ポリティと好奇心を用いたテストを実行した。
論文 参考訳(メタデータ) (2023-07-28T11:46:28Z) - RMBench: Benchmarking Deep Reinforcement Learning for Robotic
Manipulator Control [47.61691569074207]
強化学習は、高次元の感覚入力から実際の複雑なタスクを解決するために応用される。
生の知覚信号表現における深層学習の最近の進歩
ロボット操作のための最初のベンチマークであるRMBenchを紹介する。
論文 参考訳(メタデータ) (2022-10-20T13:34:26Z) - A Generalist Neural Algorithmic Learner [18.425083543441776]
我々は、幅広いアルゴリズムを実行することを学習できる単一のグラフニューラルネットワークプロセッサを構築している。
マルチタスク方式でアルゴリズムを効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-09-22T16:41:33Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards General and Autonomous Learning of Core Skills: A Case Study in
Locomotion [19.285099263193622]
我々は,足の広いロボットに対して,洗練された移動動作を学習できる学習フレームワークを開発した。
我々の学習フレームワークは、データ効率のよいマルチタスクRLアルゴリズムと、ロボット間で意味論的に同一の報酬関数のセットに依存している。
現実世界の四足ロボットを含む9種類のロボットに対して、同じアルゴリズムが、多種多様な再利用可能な運動スキルを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2020-08-06T08:23:55Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。