論文の概要: Fast Policy Learning for 6-DOF Position Control of Underwater Vehicles
- arxiv url: http://arxiv.org/abs/2512.13359v1
- Date: Mon, 15 Dec 2025 14:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.69187
- Title: Fast Policy Learning for 6-DOF Position Control of Underwater Vehicles
- Title(参考訳): 水中車両の6自由度位置制御のための高速政策学習
- Authors: Sümer Tunçay, Alain Andres, Ignacio Carlucho,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は強力な代替手段を提供するが、訓練は通常は遅く、シミュレートから現実への移行は難しいままである。
JAX と MuJoCo-XLA (MJX) で構築された GPU アクセラレーションによる RL トレーニングパイプラインを導入する。
大規模並列物理シミュレーションと学習更新を共同でJITコンパイルすることにより,2分以内のトレーニング時間を達成できる。
- 参考スコア(独自算出の注目度): 1.4883782513177095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Underwater Vehicles (AUVs) require reliable six-degree-of-freedom (6-DOF) position control to operate effectively in complex and dynamic marine environments. Traditional controllers are effective under nominal conditions but exhibit degraded performance when faced with unmodeled dynamics or environmental disturbances. Reinforcement learning (RL) provides a powerful alternative but training is typically slow and sim-to-real transfer remains challenging. This work introduces a GPU-accelerated RL training pipeline built in JAX and MuJoCo-XLA (MJX). By jointly JIT-compiling large-scale parallel physics simulation and learning updates, we achieve training times of under two minutes.Through systematic evaluation of multiple RL algorithms, we show robust 6-DOF trajectory tracking and effective disturbance rejection in real underwater experiments, with policies transferred zero-shot from simulation. Our results provide the first explicit real-world demonstration of RL-based AUV position control across all six degrees of freedom.
- Abstract(参考訳): 自律型水中車両(AUV)は、複雑な海洋環境や動的環境において効果的に運用するために、信頼性の高い6自由度(6-DOF)の位置制御を必要とする。
従来のコントローラーは名目上は有効であるが、非モデル化された力学や環境障害に直面すると劣化した性能を示す。
強化学習(Reinforcement Learning, RL)は強力な代替手段を提供するが、訓練は通常は遅く、シミュレートから現実への移行は難しいままである。
この作業では、JAXとMuJoCo-XLA(MJX)で構築されたGPUアクセラレーションされたRLトレーニングパイプラインを導入している。
大規模並列物理シミュレーションと学習更新を共同でJITコンパイルし, 訓練時間を2分以下で行うことにより, 複数のRLアルゴリズムの系統的評価を行った結果, 実水中実験におけるロバスト6-DOF軌道追跡と効果的な外乱拒否が得られた。
その結果,RLをベースとしたAUV位置制御を6自由度で実現した初めての実世界の実証実験が得られた。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。
本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文 参考訳(メタデータ) (2025-04-21T14:25:23Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Sim-to-Real Transfer of Adaptive Control Parameters for AUV
Stabilization under Current Disturbance [1.099532646524593]
本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する新しい手法を提案する。
本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。
実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能を3倍に向上することを示した。
論文 参考訳(メタデータ) (2023-10-17T08:46:56Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。