論文の概要: Continuous Control with Deep Reinforcement Learning for Autonomous
Vessels
- arxiv url: http://arxiv.org/abs/2106.14130v1
- Date: Sun, 27 Jun 2021 03:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 05:53:39.810132
- Title: Continuous Control with Deep Reinforcement Learning for Autonomous
Vessels
- Title(参考訳): 深部強化学習による自律容器の連続制御
- Authors: Nader Zare and Bruno Brandoli and Mahtab Sarvmaili and Amilcar Soares
and Stan Matwin
- Abstract要約: 本研究では, エージェントの性能向上を図るために, 状態-作用回転と呼ばれる新しい戦略を提案する。
CVN上における状態-作用回転は目的地への到着率を一定に向上することを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 8.491129580099757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maritime autonomous transportation has played a crucial role in the
globalization of the world economy. Deep Reinforcement Learning (DRL) has been
applied to automatic path planning to simulate vessel collision avoidance
situations in open seas. End-to-end approaches that learn complex mappings
directly from the input have poor generalization to reach the targets in
different environments. In this work, we present a new strategy called
state-action rotation to improve agent's performance in unseen situations by
rotating the obtained experience (state-action-state) and preserving them in
the replay buffer. We designed our model based on Deep Deterministic Policy
Gradient, local view maker, and planner. Our agent uses two deep Convolutional
Neural Networks to estimate the policy and action-value functions. The proposed
model was exhaustively trained and tested in maritime scenarios with real maps
from cities such as Montreal and Halifax. Experimental results show that the
state-action rotation on top of the CVN consistently improves the rate of
arrival to a destination (RATD) by up 11.96% with respect to the Vessel
Navigator with Planner and Local View (VNPLV), as well as it achieves superior
performance in unseen mappings by up 30.82%. Our proposed approach exhibits
advantages in terms of robustness when tested in a new environment, supporting
the idea that generalization can be achieved by using state-action rotation.
- Abstract(参考訳): 海洋自律輸送は世界経済のグローバル化において重要な役割を担ってきた。
深部強化学習(DRL)は,開海での船舶衝突回避状況をシミュレートする自動経路計画に応用されている。
入力から直接複雑なマッピングを学習するエンドツーエンドアプローチは、異なる環境でターゲットに到達するための一般化が不十分である。
本研究では, 得られた経験(状態動作状態)を回転させ, リプレイバッファに保存することで, エージェントの性能を向上させるための, 状態動作回転と呼ばれる新しい戦略を提案する。
我々は、Deep Deterministic Policy Gradient、ローカルビューメーカ、プランナーに基づくモデルを設計した。
エージェントは2つの深い畳み込みニューラルネットワークを用いて、ポリシーとアクション値関数を推定する。
提案されたモデルは、モントリオールやハリファックスのような都市の実際の地図と共に、海洋シナリオで徹底的に訓練され、テストされた。
実験結果から,CVN上における状態-作用回転は,プランナー・ローカルビュー (VNPLV) による容器ナビゲータに対して,目的地への到着率(RATD)を1.96%向上させるとともに,見当たらないマッピングでは30.82%向上することがわかった。
提案手法は, 新たな環境下での試験において, 強靭性の観点からの利点を示し, 状態-作用回転を用いて一般化を実現できるという考えを支持する。
関連論文リスト
- Evaluating Robustness of Reinforcement Learning Algorithms for Autonomous Shipping [2.9109581496560044]
本稿では,自律型海運シミュレータにおける内陸水路輸送(IWT)のために実装されたベンチマークディープ強化学習(RL)アルゴリズムのロバスト性について検討する。
モデルのないアプローチはシミュレーターで適切なポリシーを達成でき、訓練中に遭遇したことのないポート環境をナビゲートすることに成功した。
論文 参考訳(メタデータ) (2024-11-07T17:55:07Z) - Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
運動プランナー(MP)は複雑な都市環境における安全なナビゲーションに不可欠である。
最近リリースされたMPベンチマークであるnuPlanは、クローズドループシミュレーションロジックで現実世界の駆動ログを拡張することで、この制限に対処している。
本稿では,モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverを提案する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - Sequential Modeling of Complex Marine Navigation: Case Study on a Passenger Vessel (Student Abstract) [5.253408036933116]
本稿では, 機械学習手法を用いて, 船舶の燃料消費量を削減する方法について検討する。
私たちは、カナダ西海岸のフェリーで2年間にわたって、現実世界のデータセットを活用しています。
時系列予測モデルの作成に重点を置いている。
船長の指導の下、フェリーの作戦の熟練度を評価するための評価ツールとして機能する。
論文 参考訳(メタデータ) (2024-03-20T18:29:55Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Robust Path Following on Rivers Using Bootstrapped Reinforcement
Learning [0.0]
本稿では,内陸海域における自律型表面容器(ASV)の航行制御のための深層強化学習(DRL)エージェントを開発した。
最先端のブートストラップ付きQ-ラーニングアルゴリズムと多用途のトレーニング環境ジェネレータを組み合わせることで、堅牢で正確な舵制御を実現する。
論文 参考訳(メタデータ) (2023-03-24T07:21:27Z) - Vessel-following model for inland waterways based on deep reinforcement
learning [0.0]
本研究の目的は、複雑な車両動特性と環境障害に対するRLに基づく車両追従の実現可能性を検討することである。
そこで本研究では,現実的な船舶力学に基づく内陸水路の船体追従モデルを構築した。
モデルでは,すべてのシナリオにおいて安全で快適な運転が示され,優れた一般化能力が証明された。
論文 参考訳(メタデータ) (2022-07-07T12:19:03Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Using Deep Reinforcement Learning with Automatic Curriculum earning for
Mapless Navigation in Intralogistics [0.7633618497843278]
本稿では,倉庫シナリオにおけるマップレスナビゲーション問題を解決するための深層強化学習手法を提案する。
自動誘導車両は、LiDARと前頭RGBセンサーを備え、目標のドームの下に到達することを学ぶ。
NavACL-Qは、学習プロセス全体を大幅に促進し、事前訓練された特徴抽出器は、トレーニング速度を顕著に向上させる。
論文 参考訳(メタデータ) (2022-02-23T13:50:01Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。