論文の概要: MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement
Learning and Procedurally Generated Environments
- arxiv url: http://arxiv.org/abs/2107.09996v1
- Date: Wed, 21 Jul 2021 10:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:20:49.896767
- Title: MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement
Learning and Procedurally Generated Environments
- Title(参考訳): MarsExplorer:Deep Reinforcement LearningとProcedurally Generated Environmentによる未知地探査
- Authors: Dimitrios I. Koutras, Athanasios Ch. Kapoutsis, Angelos A.
Amanatiadis, Elias B. Kosmatopoulos
- Abstract要約: MarsExplorerは、未知の領域の探索と探査に適したオープンなジャム互換環境である。
オリジナルのロボティクスの問題を、さまざまな既製のアルゴリズムが対応できる強化学習装置に翻訳する。
4種類の最先端RLアルゴリズム(A3C、PPO、レインボー、SAC)がMarsExplorer環境で訓練されている。
- 参考スコア(独自算出の注目度): 0.7742297876120561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is an initial endeavor to bridge the gap between powerful Deep
Reinforcement Learning methodologies and the problem of exploration/coverage of
unknown terrains. Within this scope, MarsExplorer, an openai-gym compatible
environment tailored to exploration/coverage of unknown areas, is presented.
MarsExplorer translates the original robotics problem into a Reinforcement
Learning setup that various off-the-shelf algorithms can tackle. Any learned
policy can be straightforwardly applied to a robotic platform without an
elaborate simulation model of the robot's dynamics to apply a different
learning/adaptation phase. One of its core features is the controllable
multi-dimensional procedural generation of terrains, which is the key for
producing policies with strong generalization capabilities. Four different
state-of-the-art RL algorithms (A3C, PPO, Rainbow, and SAC) are trained on the
MarsExplorer environment, and a proper evaluation of their results compared to
the average human-level performance is reported. In the follow-up experimental
analysis, the effect of the multi-dimensional difficulty setting on the
learning capabilities of the best-performing algorithm (PPO) is analyzed. A
milestone result is the generation of an exploration policy that follows the
Hilbert curve without providing this information to the environment or
rewarding directly or indirectly Hilbert-curve-like trajectories. The
experimental analysis is concluded by comparing PPO learned policy results with
frontier-based exploration context for extended terrain sizes. The source code
can be found at: https://github.com/dimikout3/GeneralExplorationPolicy.
- Abstract(参考訳): 本論文は,強大な深層強化学習手法と未知の地形の探索・探索問題とのギャップを埋めるための最初の試みである。
この範囲内では、未知の領域の探索/探索に適したopenai-gym互換環境であるmarsexplorerが紹介されている。
MarsExplorerは、オリジナルのロボティクス問題をReinforcement Learning(強化学習)のセットアップに翻訳する。
学習方針は、ロボットのダイナミクスの精巧なシミュレーションモデルなしで、ロボットプラットフォームに直接適用でき、異なる学習/適応フェーズを適用することができる。
その中核となる特徴の1つは制御可能な多次元地形の手続き的生成であり、これは強力な一般化能力を持つポリシーを作成する鍵である。
A3C, PPO, Rainbow, SACの4種類のRLアルゴリズムをMarsExplorer環境で訓練し, 平均的な人間レベルの性能と比較して, 結果の適切な評価を行った。
追従実験分析では,PPOの学習能力に及ぼす多次元的難易度設定の影響を解析した。
マイルストーンの成果は、ヒルベルト曲線に従う探索ポリシーの生成であり、この情報を環境に提供したり、直接的あるいは間接的にヒルベルト曲線のような軌道に報酬を与えることはない。
PPO学習政策結果とフロンティアに基づく広域地形探査コンテキストを比較して, 実験解析を行った。
ソースコードはhttps://github.com/dimikout3/generalexplorationpolicyにある。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - ReProHRL: Towards Multi-Goal Navigation in the Real World using
Hierarchical Agents [1.3194749469702445]
本稿では、強化学習によって誘導される階層的マルチゴールナビゲーションでタスクを分割する生産階層RL(ReProHRL)について述べる。
また、物体検出装置を前処理のステップとして使用して、マルチゴールナビゲーションを学習し、それを現実世界に転送する。
実世界の実装と概念実証のために,提案手法をフロントカメラを用いたナノドローンCrzyflieに展開する。
論文 参考訳(メタデータ) (2023-08-17T02:23:59Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments [6.90777229452271]
私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
論文 参考訳(メタデータ) (2021-05-04T16:29:44Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。