Fugu-MT 論文翻訳(概要): Deep Reinforcement Learning for Continuous Docking Control of Autonomous Underwater Vehicles: A Benchmarking Study

論文の概要: Deep Reinforcement Learning for Continuous Docking Control of Autonomous Underwater Vehicles: A Benchmarking Study

arxiv url: http://arxiv.org/abs/2108.02665v1
Date: Thu, 5 Aug 2021 14:58:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-06 16:32:04.746791
Title: Deep Reinforcement Learning for Continuous Docking Control of Autonomous Underwater Vehicles: A Benchmarking Study
Title（参考訳）: 自律型水中車両の連続ドッキング制御のための深層強化学習--ベンチマーク研究
Authors: Mihir Patil and Bilal Wehbe and Matias Valdenegro-Toro
Abstract要約: 本研究では, 連続領域におけるAUVドッキングの課題に対する, 最先端のモデルフリー深部強化学習手法の適用について検討する。我々は、AUVを固定ドッキングプラットフォームにドッキングするのに利用される報酬関数の詳細な定式化を提供する。
参考スコア（独自算出の注目度）: 1.7403133838762446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Docking control of an autonomous underwater vehicle (AUV) is a task that is integral to achieving persistent long term autonomy. This work explores the application of state-of-the-art model-free deep reinforcement learning (DRL) approaches to the task of AUV docking in the continuous domain. We provide a detailed formulation of the reward function, utilized to successfully dock the AUV onto a fixed docking platform. A major contribution that distinguishes our work from the previous approaches is the usage of a physics simulator to define and simulate the underwater environment as well as the DeepLeng AUV. We propose a new reward function formulation for the docking task, incorporating several components, that outperforms previous reward formulations. We evaluate proximal policy optimization (PPO), twin delayed deep deterministic policy gradients (TD3) and soft actor-critic (SAC) in combination with our reward function. Our evaluation yielded results that conclusively show the TD3 agent to be most efficient and consistent in terms of docking the AUV, over multiple evaluation runs it achieved a 100% success rate and episode return of 10667.1 +- 688.8. We also show how our reward function formulation improves over the state of the art.
Abstract（参考訳）: 自律型水中車両(AUV)のドッキング制御は、永続的な長期的自律の実現に不可欠なタスクである。本研究は、連続領域におけるAUVドッキングの課題に対する、最先端のモデルフリー深部強化学習(DRL)アプローチの適用について検討する。我々は、AUVを固定ドッキングプラットフォームにドッキングするのに利用される報酬関数の詳細な定式化を提供する。我々の研究を以前のアプローチと区別する大きな貢献は、DeepLeng AUVと同様に水中環境を定義し、シミュレートするための物理学シミュレータの使用である。そこで本研究では,いくつかの構成要素を組み込んだドッキングタスクにおける新たな報酬関数の定式化を提案し,従来の報酬定式化よりも優れる。近位政策最適化 (ppo) と2つの遅延的決定論的政策勾配 (td3) とソフト・アクタ・クリティック (sac) を報酬関数と組み合わせて評価した。評価の結果、auvのドッキングに関して、td3エージェントが最も効率的かつ一貫性があることが判明し、複数の評価で100%の成功率と10667.1 +-688.8のエピソードリターンを達成した。また,報奨関数の定式化が芸術の状況に対してどのように改善するかを示す。

関連論文リスト

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。 VAPOは最先端のスコアが$mathbf60.4$に達する。同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文参考訳（メタデータ） (2025-04-07T14:21:11Z)
FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation [65.01601309903971]
無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
論文参考訳（メタデータ） (2024-09-25T03:54:01Z)
Optimizing TD3 for 7-DOF Robotic Arm Grasping: Overcoming Suboptimality with Exploration-Enhanced Contrastive Learning [0.0]
空間空間の探索が不十分なため、7-DOFロボットアームを制御する際の最適下方策がもたらされる。本稿では,新しい状態に遭遇する際の追加報酬を提供することで,探索を改善する,探索強化コントラスト学習(EECL)モジュールを提案する。本研究では,ロボットスーツパンダ昇降作業において,試験環境における効率と収束速度の両面で,ベースラインのTD3を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-08-26T04:30:59Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
Enhancing AUV Autonomy With Model Predictive Path Integral Control [9.800697959791544]
AUV制御のためのモデル予測経路積分制御(MPPI)の実現可能性について検討する。我々はAUVの非線形モデルを用いてMPPIのサンプルを伝搬し、制御動作をリアルタイムで計算する。
論文参考訳（メタデータ） (2023-08-10T12:55:57Z)
CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。 CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文参考訳（メタデータ） (2023-06-09T18:45:15Z)
Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文参考訳（メタデータ） (2023-01-26T01:06:46Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
Reinforcement learning reward function in unmanned aerial vehicle control tasks [0.0]
報酬関数は、目標に対する簡易な軌道の時間の構成と推定に基づいている。新たに開発された仮想環境において,報酬関数の有効性を検証した。
論文参考訳（メタデータ） (2022-03-20T10:32:44Z)
Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。価値に基づく政策段階の深層強化学習(DRL)について考察する。また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文参考訳（メタデータ） (2021-12-16T16:53:56Z)
f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文参考訳（メタデータ） (2020-11-09T19:37:48Z)
Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文参考訳（メタデータ） (2020-08-04T17:21:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。