論文の概要: Real Time Control of Tandem-Wing Experimental Platform Using Concerto Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.10429v1
- Date: Sat, 08 Feb 2025 03:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 03:22:55.561767
- Title: Real Time Control of Tandem-Wing Experimental Platform Using Concerto Reinforcement Learning
- Title(参考訳): 協奏曲強化学習を用いたタンデム翼実験プラットフォームの実時間制御
- Authors: Zhang Minghao, Yang Xiaojun, Wang Zhihe, Wang Liang,
- Abstract要約: 本稿では,DDTWEP(Direct-Drive Tandem-Wing Experimental Platform)のリアルタイム制御性能向上を目的とした改良強化学習法であるCRL2RTアルゴリズムを提案する。
その結果,CRL2RTは標準CPUで2500Hzを超える制御周波数を実現することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces the CRL2RT algorithm, an advanced reinforcement learning method aimed at improving the real-time control performance of the Direct-Drive Tandem-Wing Experimental Platform (DDTWEP). Inspired by dragonfly flight, DDTWEP's tandem wing structure causes nonlinear and unsteady aerodynamic interactions, leading to complex load behaviors during pitch, roll, and yaw maneuvers. These complexities challenge stable motion control at high frequencies (2000 Hz). To overcome these issues, we developed the CRL2RT algorithm, which combines classical control elements with reinforcement learning-based controllers using a time-interleaved architecture and a rule-based policy composer. This integration ensures finite-time convergence and single-life adaptability. Experimental results under various conditions, including different flapping frequencies and yaw disturbances, show that CRL2RT achieves a control frequency surpassing 2500 Hz on standard CPUs. Additionally, when integrated with classical controllers like PID, Adaptive PID, and Model Reference Adaptive Control (MRAC), CRL2RT enhances tracking performance by 18.3% to 60.7%. These findings demonstrate CRL2RT's broad applicability and superior performance in complex real-time control scenarios, validating its effectiveness in overcoming existing control strategy limitations and advancing robust, efficient real-time control for biomimetic aerial vehicles.
- Abstract(参考訳): 本稿では,ダイレクトドライブタンデム・ウィング実験プラットフォーム(DDTWEP)のリアルタイム制御性能向上を目的とした,高度な強化学習手法であるCRL2RTアルゴリズムを提案する。
トンボ飛行にインスパイアされたDDTWEPのタンデム翼構造は、非線形かつ非定常な空気力学的相互作用を引き起こし、ピッチ、ロール、ヨー操作の複雑な負荷挙動を引き起こす。
これらの複雑さは、2000Hzの周波数で安定した動き制御に挑戦する。
これらの問題を解決するために,従来の制御要素と強化学習に基づく制御器を組み合わせたCRL2RTアルゴリズムを開発した。
この積分は有限時間収束と単一寿命適応性を保証する。
様々な条件下での実験結果から、CRL2RTは標準CPU上で2500Hzを超える制御周波数を達成することが示された。
さらに、PID、Adaptive PID、Model Reference Adaptive Control (MRAC)のような古典的なコントローラと統合されると、CRL2RTはトラッキング性能を18.3%から60.7%向上させる。
これらの結果は、CRL2RTの複雑なリアルタイム制御シナリオにおける広範な適用性と優れた性能を示し、既存の制御戦略の限界を克服し、バイオミメティック航空車両の堅牢で効率的なリアルタイム制御を向上する効果を検証した。
関連論文リスト
- A Plug-and-Play Fully On-the-Job Real-Time Reinforcement Learning Algorithm for a Direct-Drive Tandem-Wing Experiment Platforms Under Multiple Random Operating Conditions [0.0]
Concerto Reinforcement Learning Extension (CRL2E)アルゴリズムが開発された。
このプラグ・アンド・プレイのリアルタイム強化学習アルゴリズムは、新しい物理インスパイアされたルールベースのポリシー構成戦略を取り入れている。
ハードウェアテストでは、最適化された軽量ネットワーク構造が、リアルタイムの制御要件を満たす、重み付けと平均推論時間に優れていることが示されている。
論文 参考訳(メタデータ) (2024-10-21T00:59:50Z) - ConcertoRL: An Innovative Time-Interleaved Reinforcement Learning Approach for Enhanced Control in Direct-Drive Tandem-Wing Vehicles [7.121362365269696]
制御精度を向上し,オンライントレーニングプロセスの安定化を図るために,ConsoleoRLアルゴリズムを導入する。
試行では、強化学習の強化なしでシナリオよりも約70%パフォーマンスが大幅に向上した。
結果は、アルゴリズムがその部分の総和を超える相乗効果を生み出す能力を強調している。
論文 参考訳(メタデータ) (2024-05-22T13:53:10Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。