論文の概要: Conformal Signal Temporal Logic for Robust Reinforcement Learning Control: A Case Study
- arxiv url: http://arxiv.org/abs/2602.14322v1
- Date: Sun, 15 Feb 2026 22:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.954351
- Title: Conformal Signal Temporal Logic for Robust Reinforcement Learning Control: A Case Study
- Title(参考訳): ロバスト強化学習制御のためのコンフォーマル信号時間論理
- Authors: Hani Beirami, M M Manjurul Islam,
- Abstract要約: 本研究では,航空宇宙分野における強化学習制御の安全性と堅牢性を高めるための公式な時間論理仕様について検討する。
実験により, 共形シールドは, ほぼベースライン性能を維持しながら, STLの満足度を保っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how formal temporal logic specifications can enhance the safety and robustness of reinforcement learning (RL) control in aerospace applications. Using the open source AeroBench F-16 simulation benchmark, we train a Proximal Policy Optimization (PPO) agent to regulate engine throttle and track commanded airspeed. The control objective is encoded as a Signal Temporal Logic (STL) requirement to maintain airspeed within a prescribed band during the final seconds of each maneuver. To enforce this specification at run time, we introduce a conformal STL shield that filters the RL agent's actions using online conformal prediction. We compare three settings: (i) PPO baseline, (ii) PPO with a classical rule-based STL shield, and (iii) PPO with the proposed conformal shield, under both nominal conditions and a severe stress scenario involving aerodynamic model mismatch, actuator rate limits, measurement noise, and mid-episode setpoint jumps. Experiments show that the conformal shield preserves STL satisfaction while maintaining near baseline performance and providing stronger robustness guarantees than the classical shield. These results demonstrate that combining formal specification monitoring with data driven RL control can substantially improve the reliability of autonomous flight control in challenging environments.
- Abstract(参考訳): 本研究では,航空宇宙分野における強化学習(RL)制御の安全性と堅牢性を高めるための公式な時間論理仕様について検討する。
オープンソースのAeroBench F-16シュミレーションベンチマークを用いて,PPOエージェントを訓練し,エンジンのスロットルを制御し,誘導空気速を追跡する。
制御対象は、各操作の最終秒間、所定の帯域内での空気速度を維持するための信号時間論理(STL)要件として符号化される。
この仕様を実行時に実施するために、オンラインコンフォメーション予測を用いてRLエージェントの動作をフィルタリングするコンフォメーションSTLシールドを導入する。
3つの設定を比較します。
(i)PPOベースライン
(二)古典的規則に基づくSTLシールド付きPPO及び
三 空力モデルミスマッチ、アクチュエータの速度制限、測定ノイズ、及び中エピソードセットポイントジャンプを含む、名目上の条件と重度の応力シナリオの両面において、共形シールドを用いたPPO。
実験の結果, 共形シールドはベースラインに近い性能を維持しつつ, STLの満足度を保ち, 従来のシールドよりも強靭性を確保していることがわかった。
これらの結果は,形式的仕様監視とデータ駆動型RL制御を組み合わせることで,困難環境下での自律飛行制御の信頼性を大幅に向上できることを示す。
関連論文リスト
- Control of a Twin Rotor using Twin Delayed Deep Deterministic Policy Gradient (TD3) [0.0]
本稿では,Twin Rotor Aerodynamic System (TRAS) の安定化のための強化学習フレームワークを提案する。
TRASの複雑な力学と非線形特性は、従来の制御アルゴリズムによる制御を困難にしている。
実世界の応用における制御器の有効性を確認するため,実験室で実験を行った。
論文 参考訳(メタデータ) (2025-12-15T14:10:04Z) - Adaptive GR(1) Specification Repair for Liveness-Preserving Shielding in Reinforcement Learning [46.90899478779653]
シールドは強化学習(RL)の安全性を高めるために広く用いられている
我々は、ランク1(GR(1))仕様の一般化反応性に基づく、最初の適応シールドフレームワークを開発する。
本手法では,実行時に環境仮定違反を検出し,インダクティブ論理プログラミング(ILP)を用いてGR(1)仕様をオンラインに自動修正する。
論文 参考訳(メタデータ) (2025-11-04T14:27:28Z) - ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy [51.56484100374058]
ASTREAは、自律的な宇宙船運用のためのフライト・ヘリテージ・ハードウェア上で実行される最初のエージェント・システムである。
我々は,資源制約付き大規模言語モデル(LLM)エージェントと強化学習コントローラを,空間対応プラットフォームに適した非同期アーキテクチャに統合する。
論文 参考訳(メタデータ) (2025-09-16T08:52:13Z) - Real Time Control of Tandem-Wing Experimental Platform Using Concerto Reinforcement Learning [0.0]
本稿では,DDTWEP(Direct-Drive Tandem-Wing Experimental Platform)のリアルタイム制御性能向上を目的とした改良強化学習法であるCRL2RTアルゴリズムを提案する。
その結果,CRL2RTは標準CPUで2500Hzを超える制御周波数を実現することがわかった。
論文 参考訳(メタデータ) (2025-02-08T03:46:40Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - Designing a Robust Low-Level Agnostic Controller for a Quadrotor with
Actor-Critic Reinforcement Learning [0.38073142980732994]
ソフトアクター・クリティカルに基づく低レベルウェイポイント誘導制御器の訓練段階におけるドメインランダム化を提案する。
トレーニング中の四元数力学に一定の不確実性を導入することにより、より大規模な四元数パラメータを用いて提案課題を実行することができる制御器が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T14:58:19Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。