論文の概要: Efficient Exploration in Constrained Environments with Goal-Oriented
Reference Path
- arxiv url: http://arxiv.org/abs/2003.01641v1
- Date: Tue, 3 Mar 2020 17:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:36:17.599839
- Title: Efficient Exploration in Constrained Environments with Goal-Oriented
Reference Path
- Title(参考訳): 目標指向参照経路を持つ制約環境における効率的な探索
- Authors: Kei Ota, Yoko Sasaki, Devesh K. Jha, Yusuke Yoshiyasu, and Asako
Kanezaki
- Abstract要約: 環境マップに基づいて衝突のない経路を予測できる深層畳み込みネットワークを訓練する。
これは強化学習アルゴリズムによって、経路を忠実に追従することを学ぶために使われる。
提案手法は,新しい環境へのサンプル効率と一般化能力を継続的に改善することを示す。
- 参考スコア(独自算出の注目度): 15.679210057474922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of building learning agents that can
efficiently learn to navigate in constrained environments. The main goal is to
design agents that can efficiently learn to understand and generalize to
different environments using high-dimensional inputs (a 2D map), while
following feasible paths that avoid obstacles in obstacle-cluttered
environment. To achieve this, we make use of traditional path planning
algorithms, supervised learning, and reinforcement learning algorithms in a
synergistic way. The key idea is to decouple the navigation problem into
planning and control, the former of which is achieved by supervised learning
whereas the latter is done by reinforcement learning. Specifically, we train a
deep convolutional network that can predict collision-free paths based on a map
of the environment-- this is then used by a reinforcement learning algorithm to
learn to closely follow the path. This allows the trained agent to achieve good
generalization while learning faster. We test our proposed method in the
recently proposed Safety Gym suite that allows testing of safety-constraints
during training of learning agents. We compare our proposed method with
existing work and show that our method consistently improves the sample
efficiency and generalization capability to novel environments.
- Abstract(参考訳): 本稿では,制約のある環境で効率的にナビゲートを学習できる学習エージェントの構築の問題について考察する。
主な目的は、高次元入力(2次元マップ)を用いて異なる環境への理解と一般化を効率的に学習できるエージェントを設計することであり、障害物分散環境の障害物を避けるための実現可能な経路に従うことである。
これを実現するために,従来の経路計画アルゴリズム,教師付き学習アルゴリズム,強化学習アルゴリズムを相乗的に活用する。
重要なアイデアは、ナビゲーション問題を計画と制御に分離することであり、前者は教師付き学習によって達成され、後者は強化学習によって達成される。
具体的には、環境のマップに基づいて衝突のない経路を予測できる深い畳み込みネットワークを訓練する。
これにより、訓練されたエージェントはより速く学習しながら、優れた一般化を達成することができる。
提案手法を最近提案したセーフティガイムスイートを用いて,学習エージェントのトレーニング中に安全制約のテストを可能にする。
提案手法を既存の手法と比較し,新しい環境へのサンプル効率と一般化能力を一貫して改善することを示す。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning [17.69984142788365]
被覆経路計画 (CPP) は、制限された領域の自由空間全体をカバーする経路を見つける問題である。
この課題に対する強化学習の適性について検討する。
本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-29T14:32:06Z) - Online Bayesian Meta-Learning for Cognitive Tracking Radar [9.805913930878]
波形・アジャイル追跡のためのオンラインメタラーニング手法を開発した。
我々は、ターゲットタイプやクラッタなどの一般的な物理要素に起因する、トラッキングシーン間の固有の類似性を生かしている。
論文 参考訳(メタデータ) (2022-07-07T20:21:54Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Learning to Explore by Reinforcement over High-Level Options [0.0]
エージェントに「見回し」と「フロンティアナビゲーション」という2つの行動選択肢を与える新しい手法を提案する。
各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。
提案手法が利用可能な2つの3次元環境データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-11-02T04:21:34Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Multi-agent navigation based on deep reinforcement learning and
traditional pathfinding algorithm [0.0]
我々は,マルチエージェント衝突回避問題のための新しいフレームワークを開発する。
このフレームワークは、従来のパスフィニングアルゴリズムと強化学習を組み合わせたものだ。
我々のアプローチでは、エージェントはナビゲートするか、パートナーを避けるために簡単な行動をとるかを学ぶ。
論文 参考訳(メタデータ) (2020-12-05T08:56:58Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。