論文の概要: Deep Interactive Reinforcement Learning for Path Following of Autonomous
Underwater Vehicle
- arxiv url: http://arxiv.org/abs/2001.03359v1
- Date: Fri, 10 Jan 2020 09:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 22:56:45.500316
- Title: Deep Interactive Reinforcement Learning for Path Following of Autonomous
Underwater Vehicle
- Title(参考訳): 自律型水中車両の経路追従のためのディープインタラクティブ強化学習
- Authors: Qilei Zhang, Jinying Lin, Qixin Sha, Bo He and Guangliang Li
- Abstract要約: 強化学習(RL)と深層強化学習(Deep reinforcement learning)がAUVの設計と研究に導入され、その自律性が改善されている。
これらの手法は, まばらな報奨と学習効率の低さから, 実際のAUVシステムに直接適用することは依然として困難である。
深部強化学習と対話的RLの利点を組み合わせた,AUVの経路追従のための深部対話型強化学習法を提案する。
- 参考スコア(独自算出の注目度): 3.7536109969679052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous underwater vehicle (AUV) plays an increasingly important role in
ocean exploration. Existing AUVs are usually not fully autonomous and generally
limited to pre-planning or pre-programming tasks. Reinforcement learning (RL)
and deep reinforcement learning have been introduced into the AUV design and
research to improve its autonomy. However, these methods are still difficult to
apply directly to the actual AUV system because of the sparse rewards and low
learning efficiency. In this paper, we proposed a deep interactive
reinforcement learning method for path following of AUV by combining the
advantages of deep reinforcement learning and interactive RL. In addition,
since the human trainer cannot provide human rewards for AUV when it is running
in the ocean and AUV needs to adapt to a changing environment, we further
propose a deep reinforcement learning method that learns from both human
rewards and environmental rewards at the same time. We test our methods in two
path following tasks---straight line and sinusoids curve following of AUV by
simulating in the Gazebo platform. Our experimental results show that with our
proposed deep interactive RL method, AUV can converge faster than a DQN learner
from only environmental reward. Moreover, AUV learning with our deep RL from
both human and environmental rewards can also achieve a similar or even better
performance than that with the deep interactive RL method and can adapt to the
actual environment by further learning from environmental rewards.
- Abstract(参考訳): 自律型水中車両(AUV)は、海洋探査においてますます重要な役割を担っている。
既存のAUVは通常完全に自律的ではなく、一般に事前計画や事前プログラミングに限られる。
強化学習(RL)と深層強化学習がAUVの設計と研究に導入され、その自律性が改善されている。
しかし,これらの手法は低報酬と低学習効率のため,実際のAUVシステムに直接適用することは依然として困難である。
本稿では,深部強化学習と対話的RLの利点を組み合わせることで,AUVの経路追従に対する深い対話的強化学習法を提案する。
また、ヒトトレーナーは、海中を走行中はauvに対して人間の報酬を提供できず、auvは変化する環境に適応する必要があるため、人間の報酬と環境報酬の両方から同時に学習する深い強化学習方法を提案する。
提案手法は,ガゼボプラットフォーム上でのシミュレーションにより,AUVの直線と正弦波曲線の2つの経路で検証する。
実験の結果,提案手法により,AUVは環境報酬のみからDQN学習者よりも高速に収束できることがわかった。
さらに,人間と環境の両方からの深いrlによるauv学習は,深層対話型rl法と同等あるいはそれ以上の性能を達成でき,環境報酬からさらに学習することで実際の環境に適応することができる。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Visual Detection of Diver Attentiveness for Underwater Human-Robot
Interaction [15.64806176508126]
自律型水中車両(AUV)におけるダイバーアテンション推定手法を提案する。
このフレームワークのコア要素はディープニューラルネットワーク(DATT-Netと呼ばれる)で、ダイバーの10の顔キーポイント間の幾何学的関係を利用して、その方向を決定する。
実験により,提案したDATT-Netアーキテクチャは,有望な精度でヒトダイバーの注意力を決定することができることを示した。
論文 参考訳(メタデータ) (2022-09-28T22:08:41Z) - Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task [6.263481844384228]
本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
論文 参考訳(メタデータ) (2022-03-11T20:52:30Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Deep Reinforcement Learning for Continuous Docking Control of Autonomous
Underwater Vehicles: A Benchmarking Study [1.7403133838762446]
本研究では, 連続領域におけるAUVドッキングの課題に対する, 最先端のモデルフリー深部強化学習手法の適用について検討する。
我々は、AUVを固定ドッキングプラットフォームにドッキングするのに利用される報酬関数の詳細な定式化を提供する。
論文 参考訳(メタデータ) (2021-08-05T14:58:05Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。