論文の概要: Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application
- arxiv url: http://arxiv.org/abs/2603.12020v1
- Date: Thu, 12 Mar 2026 15:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.163445
- Title: Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application
- Title(参考訳): 水中ドッキング応用のための深部強化学習のための準現実適応
- Authors: Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao,
- Abstract要約: Deep Reinforcement Learning (DRL)は、自律的な水中ドッキングのための従来の制御方法に代わる堅牢な代替手段を提供する。
本稿では,高忠実なディジタル双生児環境を活用することで,ジローナ自律水中車両(AUV)を用いた自律ドッキングの体系的アプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Reinforcement Learning (DRL) offers a robust alternative to traditional control methods for autonomous underwater docking, particularly in adapting to unpredictable environmental conditions. However, bridging the "sim-to-real" gap and managing high training latencies remain significant bottlenecks for practical deployment. This paper presents a systematic approach for autonomous docking using the Girona Autonomous Underwater Vehicle (AUV) by leveraging a high-fidelity digital twin environment. We adapted the Stonefish simulator into a multiprocessing RL framework to significantly accelerate the learning process while incorporating realistic AUV dynamics, collision models, and sensor noise. Using the Proximal Policy Optimization (PPO) algorithm, we developed a 6-DoF control policy trained in a headless environment with randomized starting positions to ensure generalized performance. Our reward structure accounts for distance, orientation, action smoothness, and adaptive collision penalties to facilitate soft docking. Experimental results demonstrate that the agent achieved a success rate of over 90% in simulation. Furthermore, successful validation in a physical test tank confirmed the efficacy of the sim-to-reality adaptation, with the DRL controller exhibiting emergent behaviors such as pitch-based braking and yaw oscillations to assist in mechanical alignment.
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)は、特に予測不可能な環境条件に適応するために、自律的な水中ドッキングのための従来の制御方法に代わる堅牢な代替手段を提供する。
しかし、"sim-to-real"ギャップを埋めて、高いトレーニングレイテンシを管理することは、実践的なデプロイメントにおいて重大なボトルネックである。
本稿では,高忠実なディジタル双生児環境を活用することで,ジローナ自律水中車両(AUV)を用いた自律ドッキングの体系的アプローチを提案する。
我々はStonefishシミュレータをマルチプロセスのRLフレームワークに適応させ,現実的なAUVダイナミックス,衝突モデル,センサノイズを取り入れながら,学習プロセスを大幅に高速化した。
PPO(Proximal Policy Optimization)アルゴリズムを用いて、ランダムな開始位置を持つヘッドレス環境で訓練された6-DoF制御ポリシーを開発し、汎用性能を確保する。
我々の報酬構造は、ソフトドッキングを容易にするために距離、方向、動作の滑らかさ、適応衝突の罰則を考慮に入れている。
実験の結果, シミュレーションで90%以上の成功率を達成した。
さらに、物理的試験槽での検証が成功し、DRLコントローラはピッチベースブレーキやヨー振動などの創発的な挙動を示し、機械的アライメントを支援することで、シム・トゥ・レナリティ適応の有効性を確認した。
関連論文リスト
- Fast Policy Learning for 6-DOF Position Control of Underwater Vehicles [1.4883782513177095]
強化学習(Reinforcement Learning, RL)は強力な代替手段を提供するが、訓練は通常は遅く、シミュレートから現実への移行は難しいままである。
JAX と MuJoCo-XLA (MJX) で構築された GPU アクセラレーションによる RL トレーニングパイプラインを導入する。
大規模並列物理シミュレーションと学習更新を共同でJITコンパイルすることにより,2分以内のトレーニング時間を達成できる。
論文 参考訳(メタデータ) (2025-12-15T14:12:32Z) - Digital Twin Supervised Reinforcement Learning Framework for Autonomous Underwater Navigation [0.0]
本稿では,科学実験に広く利用されているオープンプラットフォームであるBlueROV2の事例を通して,課題を考察する。
本稿では,PPOアルゴリズムに基づく深層強化学習手法を提案する。
以上の結果から, PPO政策は高度に乱雑な環境でのDWAを一貫して上回っていることが示唆された。
論文 参考訳(メタデータ) (2025-12-11T18:52:42Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Neural-based Control for CubeSat Docking Maneuvers [0.0]
本稿では、強化学習(RL)によって訓練されたニューラルネットワーク(ANN)を用いた革新的なアプローチを提案する。
提案した戦略は実装が容易であり、経験から制御ポリシーを学習することで、高速な適応性と障害に対する堅牢性を提供する。
本研究は、宇宙機RVDの適応性と効率の確保におけるRLの有効性を強調し、今後のミッションへの期待について考察した。
論文 参考訳(メタデータ) (2024-10-16T16:05:46Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Sim-to-Real Transfer of Adaptive Control Parameters for AUV
Stabilization under Current Disturbance [1.099532646524593]
本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する新しい手法を提案する。
本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。
実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能を3倍に向上することを示した。
論文 参考訳(メタデータ) (2023-10-17T08:46:56Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。