論文の概要: Autopilot-Preserving Residual Q-Learning with HJB-Inspired Finite-Action Risk Filtering for Fixed-Wing UAV Command Supervision
- arxiv url: http://arxiv.org/abs/2606.01397v1
- Date: Sun, 31 May 2026 18:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.682226
- Title: Autopilot-Preserving Residual Q-Learning with HJB-Inspired Finite-Action Risk Filtering for Fixed-Wing UAV Command Supervision
- Title(参考訳): 固定翼UAV指令スーパービジョンのためのHJBにインスパイアされた有限動作リスクフィルタによる自動保存残差Qラーニング
- Authors: Mehmet Iscan, Batuhan Temiz,
- Abstract要約: 固定翼UAVは風速、高度、風速、気流、乱流下での誘導基準を保持する必要がある。
変速オートパイロット上の学習スーパーバイザーは、指示された飛行速度、高度、進路に設定された有限な有界動作から残留物を選択する。
本稿では,この自動操縦保存型残留コマンドスーパービジョン設計と,そのトレードオフをそのまま報告したベンチマークについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fixed-wing UAV must hold airspeed, altitude, and heading references under wind, gusts, and turbulence, channels coupled so that correcting one can degrade another. Classical autopilots stabilize the airframe well but adapt poorly when a hard crosswind meets an aggressive turn, while reinforcement-learning (RL) policies acting directly on the surfaces concentrate exploration risk at the actuator interface. We place a learned supervisor above an unchanged autopilot rather than inside it: it selects a residual from a finite, bounded action set on the commanded airspeed, altitude, and heading; the modified reference is projected into an admissible command envelope before reaching the autopilot, which stays the only actuator-facing controller. What is new is how the residual is chosen. HJB residual scores candidates with a semi-discrete value-iteration critic in the spirit of the Hamilton-Jacobi-Bellman (HJB) equation, ranks them by a no-op-relative Hamiltonian advantage, and filters them through a control-Lyapunov- and control-barrier-inspired finite-action shield that always keeps a no-op fallback. On a shared 12-state runtime holding the plant, autopilot, and actuator model fixed, so the comparison is at the package level, HJB residual lowers mean RMS path-tracking error to 44.809 m, against 338.617 m for the baseline autopilot and 88.809 m for a tabular-Q residual, an 86.77% reduction over the baseline and 49.54% over Q-learning. The gain concentrates where the baseline fails worst and comes with a measured rise in airspeed error, so no method dominates every metric. We present this autopilot-preserving residual command-supervision design and benchmark with its trade-offs reported intact.
- Abstract(参考訳): 固定翼UAVは風速、高度、風速、風速、乱流下での基準を維持できなければならない。
古典的なオートパイロットは機体を安定させるが、ハードクロスウインドが攻撃的な旋回に合うと順応が悪く、一方、表面に直接作用する強化学習(RL)ポリシーはアクチュエータ界面での探査リスクを集中させる。
命令された飛行速度、高度、進路に設定された有限で有界な動作から残留物を選択し、修正された参照はオートパイロットに到達する前に許容可能なコマンドエンベロープに投影される。
新しいのは、残余がどのように選択されるかです。
HJBはハミルトン・ヤコビ・ベルマン方程式(英語版)(HJB)の精神において半離散値イテレーションの批判を持つ候補をスコア付けし、それらを非相対的なハミルトンの優位性でランク付けし、制御リプノフおよび制御バリアにインスパイアされた有限作用シールドを通じてフィルターする。
プラント、オートパイロット、アクチュエーターモデルを固定した共有12状態ランタイムでは、パッケージレベルで比較すると、HJB残差はRMSパス追跡誤差を44.809m、ベースラインオートパイロットは338.617m、タブ状Q残差は88.809m、ベースラインを86.77%、Qラーニングは49.54%に下げる。
ゲインはベースラインが最悪な場所で集中し、計測された空気速度誤差が上昇するので、すべてのメートル法を支配できない。
本稿では,この自動操縦保存型残留コマンドスーパービジョン設計と,そのトレードオフをそのまま報告したベンチマークについて述べる。
関連論文リスト
- Trust Region Q Adjoint Matching [54.05514246126841]
本稿では,経路空間KLを予め訓練されたフローポリシーで適応的に制御する安定なオフポリチック微調整アルゴリズムであるTrust Region Q-Adjoint Matching (TRQAM)を紹介する。
TRQAMは、オフラインRLとオフライン-オフラインRLの両方において、常に先行技術を上回っている。
論文 参考訳(メタデータ) (2026-05-26T14:28:43Z) - Wind-Aware Optimal Trajectory Planning for Efficient Gliding of Fixed-Wing Aerial Systems [7.0414059106180025]
グライディングは小型の固定翼UAVとサイレント操作を提供する。
従来のトータル・エナジー・コントロール・システム(Total Energy Control Systems)ベースのコントローラは、電位と運動エネルギーの交換を反応的に制御する。
小型UAVグライダーのための非線形多コスト軌道プランナを提案する。
論文 参考訳(メタデータ) (2026-05-15T05:01:09Z) - AWARE: Adaptive Whole-body Active Rotating Control for Enhanced LiDAR-Inertial Odometry under Human-in-the-Loop Interaction [15.502575136823237]
リソース制限されたUAVプラットフォームは、しばしば視野の狭いLiDARセンサーに制限される。
AWAKEはバイオインスパイアされた全身のアクティブユーイングフレームワークで、UAV自身の回転速度を利用して効果的なセンサー水平線を拡大する。
Safe Flight Corridorメカニズムは、オペレータのナビゲーション意図を自律ヨー最適化から切り離すことによって、このHITLパラダイム内での運用上の安全性を保証する。
論文 参考訳(メタデータ) (2026-04-12T12:07:58Z) - Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances [8.618483849755604]
オーバーヘッドマニピュレータを備えたドローンは、検査、メンテナンス、コンタクトベースのインタラクションにユニークな機能を提供する。
ドローンとそのマニピュレータの動作は強く結びついており、風や制御の欠陥による小さな姿勢の変化でさえ、エンドエフェクターを意図した経路から遠ざける。
変換器をベースとしたDouble Deep Q Learning (DDQN) を用いた強化学習フレームワークを開発した。
これにより、コントローラは実際のモデル上でこれらのアクションを直接実行するのではなく、シミュレーションされたロールアウトを通じてエンドエフェクタの動きを予測できる。
論文 参考訳(メタデータ) (2026-03-27T17:08:40Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - UAV-Deployed OAM-BB84 QKD: Turbulence- and Misalignment-Resilient Decoy-State Finite-Key Security with AI-Assisted Calibration [0.0]
本稿では,無人航空機(UAV)プラットフォーム上でBB84を符号化した軌道角運動量を用いた量子鍵分布(QKD)の理論フレームワークを提案する。
確率的揺らぎ、検出器暗数、効率のミスマッチ、誤り訂正リークを含む秘密鍵レートに対する構成可能な有限鍵下限を導出する。
UAVシステムアーキテクチャ、乱流駆動QBERマップ、デコイ最適化、有限鍵スケーリング、AIキャリブレーションメトリクスを含む完全な評価パイプラインの概要を述べる。
論文 参考訳(メタデータ) (2026-01-16T09:23:33Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Interpretable Stochastic Model Predictive Control using Distributional
Reinforced Estimation for Quadrotor Tracking Systems [0.8411385346896411]
本研究では,動的・複雑環境下での自律的四角形ナビゲーションのためのトラジェクトリトラッカーを提案する。
提案フレームワークは,未知の空力効果に対する分散強化学習推定器をモデル予測制御器に統合する。
我々は,未知かつ多様な空気力を用いて,累積追従誤差を少なくとも66%改善するシステムを実証した。
論文 参考訳(メタデータ) (2022-05-14T23:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。