論文の概要: COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.09540v1
- Date: Tue, 16 Jun 2020 22:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:54:01.352711
- Title: COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning
- Title(参考訳): 深部強化学習を用いた無人表面車両のCOLREG対応衝突回避
- Authors: Eivind Meyer and Amalie Heiberg and Adil Rasheed and Omer San
- Abstract要約: 追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Path Following and Collision Avoidance, be it for unmanned surface vessels or
other autonomous vehicles, are two fundamental guidance problems in robotics.
For many decades, they have been subject to academic study, leading to a vast
number of proposed approaches. However, they have mostly been treated as
separate problems, and have typically relied on non-linear first-principles
models with parameters that can only be determined experimentally. The rise of
Deep Reinforcement Learning (DRL) in recent years suggests an alternative
approach: end-to-end learning of the optimal guidance policy from scratch by
means of a trial-and-error based approach. In this article, we explore the
potential of Proximal Policy Optimization (PPO), a DRL algorithm with
demonstrated state-of-the-art performance on Continuous Control tasks, when
applied to the dual-objective problem of controlling an underactuated
Autonomous Surface Vehicle in a COLREGs compliant manner such that it follows
an a priori known desired path while avoiding collisions with other vessels
along the way. Based on high-fidelity elevation and AIS tracking data from the
Trondheim Fjord, an inlet of the Norwegian sea, we evaluate the trained agent's
performance in challenging, dynamic real-world scenarios where the ultimate
success of the agent rests upon its ability to navigate non-uniform marine
terrain while handling challenging, but realistic vessel encounters.
- Abstract(参考訳): 追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
何十年もの間、彼らは学術研究の対象となり、多くのアプローチが提案された。
しかし、それらは主に別の問題として扱われており、通常は実験的にのみ決定できるパラメータを持つ非線形第一原理モデルに依存している。
近年のDeep Reinforcement Learning(DRL)の台頭は、試行錯誤に基づくアプローチによって、最適なガイダンスポリシーをゼロからエンドツーエンドに学習する、という別のアプローチを示唆している。
本稿では,未作動の自律表面車両をコレーグに準拠して制御する二重目的問題に適用し,他の船舶との衝突を回避しつつ,事前の既知の所望経路を追従する,連続制御タスクにおける最先端性能を示すdrlアルゴリズムであるproximal policy optimization (ppo)の可能性を検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)からの高忠実度標高とAIS追跡データに基づいて、エージェントの最終的な成功は、挑戦的だが現実的な船の遭遇に対処しながら、非均一な海洋を航行する能力にかかっている、挑戦的で動的な現実のシナリオにおいて、訓練されたエージェントのパフォーマンスを評価する。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Two-step dynamic obstacle avoidance [0.0]
本稿では、教師付きおよび強化学習(RL)を組み合わせることにより、動的障害物回避(DOA)タスクを扱うための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
論文 参考訳(メタデータ) (2023-11-28T14:55:50Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Risk-based implementation of COLREGs for autonomous surface vehicles
using deep reinforcement learning [1.304892050913381]
深層強化学習(DRL)は幅広い応用の可能性を示している。
本研究は,海上衝突防止国際規則(COLREG)のサブセットをDRLに基づく経路追従と障害物回避システムに組み込んだものである。
得られた自律エージェントは、訓練シナリオ、孤立した遭遇状況、実世界のシナリオのAISに基づくシミュレーションにおいて、経路追従とCOLREG準拠の衝突回避を動的に補間する。
論文 参考訳(メタデータ) (2021-11-30T21:32:59Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Deep Reinforcement Learning Controller for 3D Path-following and
Collision Avoidance by Autonomous Underwater Vehicles [0.0]
自律型水中車両のような複雑なシステムでは、意思決定は簡単ではない。
本稿では,最先端のDeep Reinforcement Learning(DRL)技術を用いた解を提案する。
本研究は,自律走行車システムにおける人間レベルの意思決定に向けた衝突回避と経路追従におけるDRLの実現可能性を示すものである。
論文 参考訳(メタデータ) (2020-06-17T11:54:53Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。