論文の概要: ConcertoRL: An Innovative Time-Interleaved Reinforcement Learning Approach for Enhanced Control in Direct-Drive Tandem-Wing Vehicles
- arxiv url: http://arxiv.org/abs/2405.13651v1
- Date: Wed, 22 May 2024 13:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:54:52.800145
- Title: ConcertoRL: An Innovative Time-Interleaved Reinforcement Learning Approach for Enhanced Control in Direct-Drive Tandem-Wing Vehicles
- Title(参考訳): ConcertoRL: 直接駆動タンデム翼車両の制御強化のための革新的時間インターリーブ強化学習手法
- Authors: Minghao Zhang, Bifeng Song, Changhao Chen, Xinyu Lang,
- Abstract要約: 制御精度を向上し,オンライントレーニングプロセスの安定化を図るために,ConsoleoRLアルゴリズムを導入する。
試行では、強化学習の強化なしでシナリオよりも約70%パフォーマンスが大幅に向上した。
結果は、アルゴリズムがその部分の総和を超える相乗効果を生み出す能力を強調している。
- 参考スコア(独自算出の注目度): 7.121362365269696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In control problems for insect-scale direct-drive experimental platforms under tandem wing influence, the primary challenge facing existing reinforcement learning models is their limited safety in the exploration process and the stability of the continuous training process. We introduce the ConcertoRL algorithm to enhance control precision and stabilize the online training process, which consists of two main innovations: a time-interleaved mechanism to interweave classical controllers with reinforcement learning-based controllers aiming to improve control precision in the initial stages, a policy composer organizes the experience gained from previous learning to ensure the stability of the online training process. This paper conducts a series of experiments. First, experiments incorporating the time-interleaved mechanism demonstrate a substantial performance boost of approximately 70% over scenarios without reinforcement learning enhancements and a 50% increase in efficiency compared to reference controllers with doubled control frequencies. These results highlight the algorithm's ability to create a synergistic effect that exceeds the sum of its parts.
- Abstract(参考訳): タンデムウィングの影響下での昆虫スケール直接駆動実験プラットフォームにおける制御問題において、既存の強化学習モデルに直面する主な課題は、探索過程における安全性の制限と継続的な訓練プロセスの安定性である。
制御精度の向上とオンライントレーニングプロセスの安定化を目的として,制御精度の向上を目的とした古典的コントローラと強化学習ベースのコントローラを相互接続するタイムインターリーブ機構と,オンライントレーニングプロセスの安定性を確保するために,政策作曲家が過去の学習経験を整理し,オンライントレーニングプロセスの安定性を確保する。
本稿では,一連の実験を行う。
まず、時間インターリーブ機構を組み込んだ実験により、強化学習の強化を伴わないシナリオよりも約70%性能が向上し、制御周波数が2倍の参照コントローラに比べて50%効率が向上した。
これらの結果は、アルゴリズムがその部分の和を超える相乗効果を生み出す能力を強調している。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Modelling, Positioning, and Deep Reinforcement Learning Path Tracking
Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。
本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。
実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文 参考訳(メタデータ) (2024-01-10T14:40:53Z) - Aiding reinforcement learning for set point control [0.0]
本論文は,簡単な誘導フィードバック制御による強化学習の強化に寄与する。
提案手法をシミュレーションおよび実世界のダブルタンクプロセスで評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2023-04-20T13:12:00Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Data-Efficient Deep Reinforcement Learning for Attitude Control of
Fixed-Wing UAVs: Field Experiments [0.37798600249187286]
DRLは、元の非線形力学を直接操作する固定翼UAVの姿勢制御をうまく学べることを示す。
我々は,UAVで学習したコントローラを飛行試験で展開し,最先端のArduPlane比例積分微分(PID)姿勢制御と同等の性能を示す。
論文 参考訳(メタデータ) (2021-11-07T19:07:46Z) - Adaptive control of a mechatronic system using constrained residual
reinforcement learning [0.0]
本研究では,不確実な環境下での従来のコントローラの性能向上のための,シンプルで実用的で直感的な手法を提案する。
本手法は, 産業用モーションコントロールにおける従来の制御器が, 異なる動作条件に対応するために適応性よりも頑健であることを示す。
論文 参考訳(メタデータ) (2021-10-06T08:13:05Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Model-Reference Reinforcement Learning Control of Autonomous Surface
Vehicles with Uncertainties [1.7033108359337459]
提案した制御は,従来の制御手法と深層強化学習を組み合わせたものである。
強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。
従来の深層強化学習法と比較して,提案した学習に基づく制御は安定性を保証し,サンプル効率を向上することができる。
論文 参考訳(メタデータ) (2020-03-30T22:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。