論文の概要: A Plug-and-Play Fully On-the-Job Real-Time Reinforcement Learning Algorithm for a Direct-Drive Tandem-Wing Experiment Platforms Under Multiple Random Operating Conditions
- arxiv url: http://arxiv.org/abs/2410.15554v1
- Date: Mon, 21 Oct 2024 00:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:19:28.890530
- Title: A Plug-and-Play Fully On-the-Job Real-Time Reinforcement Learning Algorithm for a Direct-Drive Tandem-Wing Experiment Platforms Under Multiple Random Operating Conditions
- Title(参考訳): 複数のランダム動作条件下での直接駆動タンデム翼実験プラットフォームのためのプラグイン・アンド・プレイ実時間強化学習アルゴリズム
- Authors: Zhang Minghao, Song Bifeng, Yang Xiaojun, Wang Liang,
- Abstract要約: Concerto Reinforcement Learning Extension (CRL2E)アルゴリズムが開発された。
このプラグ・アンド・プレイのリアルタイム強化学習アルゴリズムは、新しい物理インスパイアされたルールベースのポリシー構成戦略を取り入れている。
ハードウェアテストでは、最適化された軽量ネットワーク構造が、リアルタイムの制御要件を満たす、重み付けと平均推論時間に優れていることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The nonlinear and unstable aerodynamic interference generated by the tandem wings of such biomimetic systems poses substantial challenges for motion control, especially under multiple random operating conditions. To address these challenges, the Concerto Reinforcement Learning Extension (CRL2E) algorithm has been developed. This plug-and-play, fully on-the-job, real-time reinforcement learning algorithm incorporates a novel Physics-Inspired Rule-Based Policy Composer Strategy with a Perturbation Module alongside a lightweight network optimized for real-time control. To validate the performance and the rationality of the module design, experiments were conducted under six challenging operating conditions, comparing seven different algorithms. The results demonstrate that the CRL2E algorithm achieves safe and stable training within the first 500 steps, improving tracking accuracy by 14 to 66 times compared to the Soft Actor-Critic, Proximal Policy Optimization, and Twin Delayed Deep Deterministic Policy Gradient algorithms. Additionally, CRL2E significantly enhances performance under various random operating conditions, with improvements in tracking accuracy ranging from 8.3% to 60.4% compared to the Concerto Reinforcement Learning (CRL) algorithm. The convergence speed of CRL2E is 36.11% to 57.64% faster than the CRL algorithm with only the Composer Perturbation and 43.52% to 65.85% faster than the CRL algorithm when both the Composer Perturbation and Time-Interleaved Capability Perturbation are introduced, especially in conditions where the standard CRL struggles to converge. Hardware tests indicate that the optimized lightweight network structure excels in weight loading and average inference time, meeting real-time control requirements.
- Abstract(参考訳): このような生体模倣系のタンデム翼によって生じる非線形で不安定な空気力学的干渉は、特に複数のランダムな操作条件下で、運動制御に重大な課題をもたらす。
これらの課題に対処するため,CRL2Eアルゴリズムを開発した。
このプラグ・アンド・プレイで完全にオン・ザ・ジョブなリアルタイム強化学習アルゴリズムは、新しい物理にインスパイアされたルールベースのポリシーコンストラクタ戦略と、リアルタイム制御に最適化された軽量ネットワークを組み合わせた摂動モジュールを備えている。
モジュール設計の性能と合理性を検証するため、6つの困難な動作条件下で実験を行い、7つの異なるアルゴリズムを比較した。
その結果、CRL2Eアルゴリズムは最初の500ステップで安全かつ安定したトレーニングを実現し、Soft Actor-Critic, Proximal Policy Optimization, Twin Delayed Deep Deterministic Policy Gradientアルゴリズムと比較して、トラッキング精度を14~66倍改善した。
さらにCRL2Eは様々なランダムな動作条件下での性能を著しく向上させ、CRLアルゴリズムと比較して8.3%から60.4%のトラッキング精度が向上した。
CRL2Eの収束速度は、CRLアルゴリズムよりも36.11%から57.64%速く、特に標準CRLが収束に苦しむ状況において、CRLアルゴリズムよりも43.52%から65.85%速くなっている。
ハードウェアテストでは、最適化された軽量ネットワーク構造が、リアルタイムの制御要件を満たす、重み付けと平均推論時間に優れていることが示されている。
関連論文リスト
- Safe Load Balancing in Software-Defined-Networking [1.2521494095948067]
負荷分散のためのDeep Reinforcement Learning (DRL)アルゴリズム上に設計された制御バリア(CBF)。
DRL-CBFアプローチは,トレーニングおよびテスト中の安全性要件を満たすことができることを示す。
論文 参考訳(メタデータ) (2024-10-22T09:34:22Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Deep reinforcement learning applied to an assembly sequence planning
problem with user preferences [1.0558951653323283]
本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。
提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。
その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-13T14:25:15Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Off-Policy Deep Reinforcement Learning Algorithms for Handling Various
Robotic Manipulator Tasks [0.0]
本研究では,Fetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべて非政治的であり、ポリシーと値関数の両方を最適化することで、彼らの望ましい目標を達成することができる。
論文 参考訳(メタデータ) (2022-12-11T18:25:24Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - Distributed Multi-agent Meta Learning for Trajectory Design in Wireless
Drone Networks [151.27147513363502]
本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について検討する。
値ベース強化学習(VDRL)ソリューションとメタトレイン機構を提案する。
論文 参考訳(メタデータ) (2020-12-06T01:30:12Z) - Meta-Reinforcement Learning for Trajectory Design in Wireless UAV
Networks [151.65541208130995]
ドローン基地局(DBS)は、要求が動的で予測不可能な地上ユーザーへのアップリンク接続を提供するために派遣される。
この場合、DBSの軌道は動的ユーザアクセス要求を満たすように適応的に調整されなければならない。
新たな環境に遭遇したDBSの軌道に適応するために,メタラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-25T20:43:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。