論文の概要: A Heuristic Approach for Performance Tuning in RL-based Quadrotor Control via Reward Design and Termination Conditions
- arxiv url: http://arxiv.org/abs/2605.19166v1
- Date: Mon, 18 May 2026 22:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.015944
- Title: A Heuristic Approach for Performance Tuning in RL-based Quadrotor Control via Reward Design and Termination Conditions
- Title(参考訳): 逆設計と終了条件によるRL型クアドロレータ制御の性能調整に関するヒューリスティックなアプローチ
- Authors: Fausto Mauricio Lagos Suarez, Akshit Saradagi, Vidya Sumathy, George Nikolakopoulos,
- Abstract要約: 強化学習(Reinforcement Learning, RL)に基づく四角形制御ポリシは、乱雑な環境での高速ナビゲーションやドローンレースといったタスクにおいて、優れたパフォーマンスを実現している。
報奨設計と終了条件を用いて,RLに基づくクアドロータ制御におけるチューニング可能な性能を実現するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 14.576960188691215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL)-based quadrotor control policies have achieved impressive performance in tasks such as fast navigation in cluttered environments and drone racing, where the focus is on speed and agility. However, in several applications, such as infrastructure inspection, it is critical to achieve precise, controlled maneuvers with tunable performance. In this article, we present a novel heuristic approach to achieve tunable performance in RL-based Quadrotor control through reward design and termination conditions. We present a novel reward structure containing dual bandwidth exponentials that achieves a baseline critically damped response in setpoint tracking, with low steady-state errors. When trained with a Proximal Policy Optimization (PPO) algorithm, in conjunction with episode truncation conditions, the desired performance is achieved in 6 million time steps in a sample-efficient manner. In order to tune the performance about the baseline behavior, we present intuitive heuristic rules to adjust the reward weights and exponential coefficients to achieve faster (acrobatic-like) and slower (inspection-like) settling time performance, while retaining the baseline critically damped response and approximately 2\% steady-state error. We evaluate the three RL policies (baseline, acrobatic, and inspection) across 100 trials and show accurate and tunable performance in position and yaw tracking from random initial conditions, thereby demonstrating the effectiveness of the proposed heuristic approach.
- Abstract(参考訳): 強化学習(RL)ベースの四角形制御ポリシは、散らかった環境における高速ナビゲーションや、スピードとアジリティを重視したドローンレースといったタスクにおいて、目覚ましいパフォーマンスを達成した。
しかし、インフラ検査などのいくつかのアプリケーションでは、調整可能な性能で正確かつ制御された操作を実現することが重要である。
本稿では、報酬設計と終了条件を通したRLベースクアドロレータ制御におけるチューニング可能な性能を実現するための、新しいヒューリスティックなアプローチを提案する。
本稿では,2つの帯域幅指数を含む新たな報酬構造について述べる。
PPO(Proximal Policy Optimization)アルゴリズムを用いてトレーニングすると、エピソードトランケーション条件とともに、600万のタイムステップでサンプル効率で所望のパフォーマンスが達成される。
ベースラインの動作に関する性能を調整するために,ベースラインの臨界減衰応答と約2\%の定常誤差を保ちながら,報酬重みと指数係数を調整する直感的なヒューリスティックなルールを提案し,より高速(アクロバティックな)および遅い(インスペクションのような)沈降時間性能を実現する。
提案手法の有効性を実証するため,100回の試行において3つのRLポリシー(ベースライン,アクロバティック,インスペクション)を評価し,ランダムな初期条件からの位置とヨートラッキングの正確かつ調整可能な性能を示す。
関連論文リスト
- Spatially-Aware Adaptive Trajectory Optimization with Controller-Guided Feedback for Autonomous Racing [74.83272587893508]
本稿では,NURBSに基づく軌道表現,CMA-ESグローバル軌道最適化,コントローラ誘導空間フィードバックを組み合わせた自律レースライン最適化フレームワークを提案する。
シミュレーションでは,最大静的加速度をパラメータ化したコントローラと比較して17.38%のラップタイム短縮を実現している。
高摩擦から低摩擦まで様々なタイヤ化合物で試験された実ハードウェアでは、摩擦を明示的にパラメータ化することなく、7.60%のラップタイムの改善が得られる。
論文 参考訳(メタデータ) (2026-02-17T15:10:44Z) - Conformal Signal Temporal Logic for Robust Reinforcement Learning Control: A Case Study [0.0]
本研究では,航空宇宙分野における強化学習制御の安全性と堅牢性を高めるための公式な時間論理仕様について検討する。
実験により, 共形シールドは, ほぼベースライン性能を維持しながら, STLの満足度を保っていることがわかった。
論文 参考訳(メタデータ) (2026-02-15T22:10:11Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - HPTune: Hierarchical Proactive Tuning for Collision-Free Model Predictive Control [55.015741360766945]
本稿では,高速なチューニングと低速なチューニングを組み合わせた階層型プロアクティブチューニング(HPTune)フレームワークを提案する。
我々はHPTuneをドップラーLiDARと統合し、位置のみの測定とは別に障害物速度を提供し、運動予測を強化した。
安全でアジャイルな衝突回避戦略を定式化することにより,HPTuneは状況調整型動作計画を可能にする。
論文 参考訳(メタデータ) (2026-01-29T07:15:39Z) - Performance-driven Constrained Optimal Auto-Tuner for MPC [36.143463447995536]
MPCのための制約付き最適オートチューニングであるCOAT-MPCを提案する。
COAT-MPCは、パフォーマンスデータを収集し、その後続の信念を更新することによって学習する。
理論的にはCOAT-MPCを解析し,性能制約を任意に高い確率で満たすことを示した。
論文 参考訳(メタデータ) (2025-03-10T09:56:08Z) - Safe Load Balancing in Software-Defined-Networking [1.2521494095948067]
負荷分散のためのDeep Reinforcement Learning (DRL)アルゴリズム上に設計された制御バリア(CBF)。
DRL-CBFアプローチは,トレーニングおよびテスト中の安全性要件を満たすことができることを示す。
論文 参考訳(メタデータ) (2024-10-22T09:34:22Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。