論文の概要: Deep Reinforcement Learning for Continuous Docking Control of Autonomous
Underwater Vehicles: A Benchmarking Study
- arxiv url: http://arxiv.org/abs/2108.02665v1
- Date: Thu, 5 Aug 2021 14:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 16:32:04.746791
- Title: Deep Reinforcement Learning for Continuous Docking Control of Autonomous
Underwater Vehicles: A Benchmarking Study
- Title(参考訳): 自律型水中車両の連続ドッキング制御のための深層強化学習--ベンチマーク研究
- Authors: Mihir Patil and Bilal Wehbe and Matias Valdenegro-Toro
- Abstract要約: 本研究では, 連続領域におけるAUVドッキングの課題に対する, 最先端のモデルフリー深部強化学習手法の適用について検討する。
我々は、AUVを固定ドッキングプラットフォームにドッキングするのに利用される報酬関数の詳細な定式化を提供する。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Docking control of an autonomous underwater vehicle (AUV) is a task that is
integral to achieving persistent long term autonomy. This work explores the
application of state-of-the-art model-free deep reinforcement learning (DRL)
approaches to the task of AUV docking in the continuous domain. We provide a
detailed formulation of the reward function, utilized to successfully dock the
AUV onto a fixed docking platform. A major contribution that distinguishes our
work from the previous approaches is the usage of a physics simulator to define
and simulate the underwater environment as well as the DeepLeng AUV. We propose
a new reward function formulation for the docking task, incorporating several
components, that outperforms previous reward formulations. We evaluate proximal
policy optimization (PPO), twin delayed deep deterministic policy gradients
(TD3) and soft actor-critic (SAC) in combination with our reward function. Our
evaluation yielded results that conclusively show the TD3 agent to be most
efficient and consistent in terms of docking the AUV, over multiple evaluation
runs it achieved a 100% success rate and episode return of 10667.1 +- 688.8. We
also show how our reward function formulation improves over the state of the
art.
- Abstract(参考訳): 自律型水中車両(AUV)のドッキング制御は、永続的な長期的自律の実現に不可欠なタスクである。
本研究は、連続領域におけるAUVドッキングの課題に対する、最先端のモデルフリー深部強化学習(DRL)アプローチの適用について検討する。
我々は、AUVを固定ドッキングプラットフォームにドッキングするのに利用される報酬関数の詳細な定式化を提供する。
我々の研究を以前のアプローチと区別する大きな貢献は、DeepLeng AUVと同様に水中環境を定義し、シミュレートするための物理学シミュレータの使用である。
そこで本研究では,いくつかの構成要素を組み込んだドッキングタスクにおける新たな報酬関数の定式化を提案し,従来の報酬定式化よりも優れる。
近位政策最適化 (ppo) と2つの遅延的決定論的政策勾配 (td3) とソフト・アクタ・クリティック (sac) を報酬関数と組み合わせて評価した。
評価の結果、auvのドッキングに関して、td3エージェントが最も効率的かつ一貫性があることが判明し、複数の評価で100%の成功率と10667.1 +-688.8のエピソードリターンを達成した。
また,報奨関数の定式化が芸術の状況に対してどのように改善するかを示す。
関連論文リスト
- Learning to Terminate in Object Navigation [16.164536630623644]
本稿では,自律ナビゲーションシステムにおけるオブジェクトナビゲーションの課題に対処する。
我々は、Depth-Inference Termination Agent(DITA)という新しいアプローチを提案する。
我々は、補助学習と並行して審査モデルを訓練し、報奨信号によって効率よく前者を監督する。
論文 参考訳(メタデータ) (2023-09-28T04:32:08Z) - Enhancing AUV Autonomy With Model Predictive Path Integral Control [9.800697959791544]
AUV制御のためのモデル予測経路積分制御(MPPI)の実現可能性について検討する。
我々はAUVの非線形モデルを用いてMPPIのサンプルを伝搬し、制御動作をリアルタイムで計算する。
論文 参考訳(メタデータ) (2023-08-10T12:55:57Z) - Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation [75.36145696421038]
Ada-NAVは、ロボットナビゲーションタスクにおける強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。
我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れているというシミュレーションと実世界のロボット実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Reinforcement learning reward function in unmanned aerial vehicle
control tasks [0.0]
報酬関数は、目標に対する簡易な軌道の時間の構成と推定に基づいている。
新たに開発された仮想環境において,報酬関数の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-20T10:32:44Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。