論文の概要: Hypernetwork-Conditioned Reinforcement Learning for Robust Control of Fixed-Wing Aircraft under Actuator Failures
- arxiv url: http://arxiv.org/abs/2604.03392v1
- Date: Fri, 03 Apr 2026 18:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 15:04:55.543898
- Title: Hypernetwork-Conditioned Reinforcement Learning for Robust Control of Fixed-Wing Aircraft under Actuator Failures
- Title(参考訳): アクチュエータ故障時の固定翼機のロバスト制御のためのハイパーネットワークによる強化学習
- Authors: Dennis Marquis, Mazen Farhood,
- Abstract要約: 本稿では,小型航空機システムのための強化学習に基づく経路追従制御手法を提案する。
特徴量線形変調(FiLM)とLow-Rank Adaptation(LoRA)に基づくパラメータ効率の定式化について検討する。
ハイパーネットワーク条件のポリシーは、標準的なマルチ層パーセプトロンポリシーと比較してロバスト性を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.8164433158925594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a reinforcement learning-based path-following controller for a fixed-wing small uncrewed aircraft system (sUAS) that is robust to certain actuator failures. The controller is conditioned on a parameterization of actuator faults using hypernetwork-based adaptation. We consider parameter-efficient formulations based on Feature-wise Linear Modulation (FiLM) and Low-Rank Adaptation (LoRA), trained using proximal policy optimization. We demonstrate that hypernetwork-conditioned policies can improve robustness compared to standard multilayer perceptron policies. In particular, hypernetwork-conditioned policies generalize effectively to time-varying actuator failure modes not encountered during training. The approach is validated through high-fidelity simulations, using a realistic six-degree-of-freedom fixed-wing aircraft model.
- Abstract(参考訳): 本稿では,一定のアクチュエータ故障に対して頑健な固定翼小型無人航空機システム(sUAS)のための強化学習に基づく経路追従制御について述べる。
コントローラは、ハイパーネットワークベースの適応を用いてアクチュエータ故障のパラメータ化を行う。
本稿では,FiLM (Feature-wise Linear Modulation) とLoRA (Lo-Rank Adaptation) に基づくパラメータ係数の定式化について考察する。
ハイパーネットワーク条件のポリシーは、標準的なマルチ層パーセプトロンポリシーと比較してロバスト性を向上させることができることを示す。
特に、ハイパーネットワーク条件付きポリシーは、トレーニング中に遭遇しない時間変化アクチュエータ障害モードに効果的に一般化する。
このアプローチは、現実的な6自由度固定翼航空機モデルを用いて、高忠実度シミュレーションによって検証される。
関連論文リスト
- Efficiently Learning Robust Torque-based Locomotion Through Reinforcement with Model-Based Supervision [14.246416873754905]
モデルに基づく二足歩行と残留強化学習を統合した制御フレームワークを提案する。
提案手法は, ランダム化条件におけるロバスト性の向上と一般化を実証する。
論文 参考訳(メタデータ) (2026-01-22T16:56:52Z) - Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection [71.84636717632206]
空間分散デバイスからの信頼性とエネルギー効率のよいデータ収集のための無人航空機(UAV)は、IoT(Internet of Things)アプリケーションをサポートする上で大きな可能性を秘めている。
有効なUAV制御ポリシーを学習するための共同言語モデル(LLM)を提案する。
LLM-CRDTは、現在の最先端DTアプローチよりも最大36.7%高いエネルギー効率を達成し、オンラインおよびオフラインメソッドのベンチマークより優れている。
論文 参考訳(メタデータ) (2025-09-17T13:05:08Z) - Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation [0.13499500088995461]
マルチローターは様々な分野のロボティクス応用において重要な役割を果たしている。
従来のアプローチでは、マルチロータモデルの事前知識や、新しい構成への適応に苦労する必要がある。
我々はトランスフォーマーベースのオンライン適応モジュールと統合された新しいハイブリッドRLベースのFTCフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T04:50:29Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Data-Efficient Deep Reinforcement Learning for Attitude Control of
Fixed-Wing UAVs: Field Experiments [0.37798600249187286]
DRLは、元の非線形力学を直接操作する固定翼UAVの姿勢制御をうまく学べることを示す。
我々は,UAVで学習したコントローラを飛行試験で展開し,最先端のArduPlane比例積分微分(PID)姿勢制御と同等の性能を示す。
論文 参考訳(メタデータ) (2021-11-07T19:07:46Z) - Online Model-Free Reinforcement Learning for the Automatic Control of a
Flexible Wing Aircraft [2.3204178451683264]
フレキシブルウィング航空機の制御問題は、高次かつ高非線形な変形のために困難である。
フレキシブルウィング航空構造物のための価値強化学習プロセスに基づくオンライン制御機構を開発した。
モデルフリー制御ポリシーフレームワークと、システムのベルマン最適性方程式を解くために収束適応学習アーキテクチャを採用している。
論文 参考訳(メタデータ) (2021-08-05T06:10:37Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。