論文の概要: Sim-to-Real Transfer of Adaptive Control Parameters for AUV
Stabilization under Current Disturbance
- arxiv url: http://arxiv.org/abs/2310.11075v1
- Date: Tue, 17 Oct 2023 08:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:02:27.391406
- Title: Sim-to-Real Transfer of Adaptive Control Parameters for AUV
Stabilization under Current Disturbance
- Title(参考訳): 電流外乱時のAUV安定化のための適応制御パラメータの同時移行
- Authors: Thomas Chaffre, Jonathan Wheare, Andrew Lammas, Paulo Santos, Gilles
Le Chenadec, Karl Sammut, Benoit Clement
- Abstract要約: 本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する新しい手法を提案する。
本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。
実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能を3倍に向上することを示した。
- 参考スコア(独自算出の注目度): 1.099532646524593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based adaptive control methods hold the premise of enabling
autonomous agents to reduce the effect of process variations with minimal human
intervention. However, its application to autonomous underwater vehicles (AUVs)
has so far been restricted due to 1) unknown dynamics under the form of sea
current disturbance that we can not model properly nor measure due to limited
sensor capability and 2) the nonlinearity of AUVs tasks where the controller
response at some operating points must be overly conservative in order to
satisfy the specification at other operating points. Deep Reinforcement
Learning (DRL) can alleviates these limitations by training general-purpose
neural network policies, but applications of DRL algorithms to AUVs have been
restricted to simulated environments, due to their inherent high sample
complexity and distribution shift problem. This paper presents a novel
approach, merging the Maximum Entropy Deep Reinforcement Learning framework
with a classic model-based control architecture, to formulate an adaptive
controller. Within this framework, we introduce a Sim-to-Real transfer strategy
comprising the following components: a bio-inspired experience replay
mechanism, an enhanced domain randomisation technique, and an evaluation
protocol executed on a physical platform. Our experimental assessments
demonstrate that this method effectively learns proficient policies from
suboptimal simulated models of the AUV, resulting in control performance 3
times higher when transferred to a real-world vehicle, compared to its
model-based nonadaptive but optimal counterpart.
- Abstract(参考訳): 学習に基づく適応制御手法は、自律エージェントが人間の介入を最小限に抑えてプロセスのバリエーションの効果を減らせるという前提を持っている。
しかし、自律型水中車両(AUV)への応用は、これまで制限されてきた。
1) センサ能力の制限により適切にモデル化できない、あるいは測定できない海流の乱れによる未知の動力学
2) いくつかの動作点におけるコントローラ応答が他の動作点における仕様を満たすために過度に保守的でなければならないAUVタスクの非線形性。
Deep Reinforcement Learning(DRL)は、汎用ニューラルネットワークポリシをトレーニングすることで、これらの制限を軽減することができるが、DRLアルゴリズムのAUVへの適用は、その固有の高サンプルの複雑さと分散シフトの問題のために、シミュレーション環境に限定されている。
本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する手法を提案する。
本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。
実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能をモデルベースで非適応的かつ最適なモデルに比べて3倍に向上することを示した。
関連論文リスト
- Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Physics Enhanced Residual Policy Learning (PERPL) for safety cruising in mixed traffic platooning under actuator and communication delay [8.172286651098027]
線形制御モデルは、その単純さ、使いやすさ、安定性解析のサポートにより、車両制御に広範囲に応用されている。
一方、強化学習(RL)モデルは適応性を提供するが、解釈可能性や一般化能力の欠如に悩まされる。
本稿では,物理インフォームドポリシによって強化されたRL制御系の開発を目標とする。
論文 参考訳(メタデータ) (2024-09-23T23:02:34Z) - Towards Human-Like Driving: Active Inference in Autonomous Vehicle Control [0.5437298646956507]
本稿では,アクティブ推論の適用を通じて,自律走行車(AV)制御への新たなアプローチを提案する。
アクティブ推論(英: Active Inference)は、脳を予測機械として概念化する神経科学に由来する理論である。
提案手法は,深層学習と能動推論を統合してAVの側方制御を制御し,シミュレーション都市環境下で車線追従操作を行う。
論文 参考訳(メタデータ) (2024-07-10T14:08:27Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Learning Variable Impedance Control for Aerial Sliding on Uneven
Heterogeneous Surfaces by Proprioceptive and Tactile Sensing [42.27572349747162]
本研究では,空中すべり作業に対する学習に基づく適応制御手法を提案する。
提案するコントローラ構造は,データ駆動制御とモデルベース制御を組み合わせたものである。
美術品間相互作用制御手法の微調整状態と比較して,追従誤差の低減と外乱拒否の改善を実現した。
論文 参考訳(メタデータ) (2022-06-28T16:28:59Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Learning-based vs Model-free Adaptive Control of a MAV under Wind Gust [0.2770822269241973]
未知の条件下でのナビゲーション問題は、制御分野において最も重要でよく研究されている問題の一つである。
近年のモデルフリー適応制御法は, センサフィードバックから直接植物の物理的特性を学習することにより, この依存を除去することを目的としている。
提案手法は,深い強化学習フレームワークによって頑健に調整された完全状態フィードバックコントローラからなる,概念的にシンプルな学習ベースアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-29T10:13:56Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。