論文の概要: Safe Continual Reinforcement Learning in Non-stationary Environments
- arxiv url: http://arxiv.org/abs/2604.19737v1
- Date: Tue, 21 Apr 2026 17:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.916862
- Title: Safe Continual Reinforcement Learning in Non-stationary Environments
- Title(参考訳): 非定常環境における安全継続強化学習
- Authors: Austin Coursey, Abel Diaz-Gonzalez, Marcos Quinones-Grueiro, Gautam Biswas,
- Abstract要約: 強化学習(RL)は、正確な物理モデルが利用できない場合に、複雑なシステムのコントローラを合成するための魅力的なデータ駆動パラダイムを提供する。
既存の制御指向RL手法の多くは定常性を前提としており、現実の非定常配置に苦戦している。
安全を保ちながらシステムの寿命に適応できる安全連続強化学習アルゴリズムについて検討する。
- 参考スコア(独自算出の注目度): 2.8757268399458855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) offers a compelling data-driven paradigm for synthesizing controllers for complex systems when accurate physical models are unavailable; however, most existing control-oriented RL methods assume stationarity and, therefore, struggle in real-world non-stationary deployments where system dynamics and operating conditions can change unexpectedly. Moreover, RL controllers acting in physical environments must satisfy safety constraints throughout their learning and execution phases, rendering transient violations during adaptation unacceptable. Although continual RL and safe RL have each addressed non-stationarity and safety, respectively, their intersection remains comparatively unexplored, motivating the study of safe continual RL algorithms that can adapt over the system's lifetime while preserving safety. In this work, we systematically investigate safe continual reinforcement learning by introducing three benchmark environments that capture safety-critical continual adaptation and by evaluating representative approaches from safe RL, continual RL, and their combinations. Our empirical results reveal a fundamental tension between maintaining safety constraints and preventing catastrophic forgetting under non-stationary dynamics, with existing methods generally failing to achieve both objectives simultaneously. To address this shortcoming, we examine regularization-based strategies that partially mitigate this trade-off and characterize their benefits and limitations. Finally, we outline key open challenges and research directions toward developing safe, resilient learning-based controllers capable of sustained autonomous operation in changing environments.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、正確な物理モデルが利用できない場合、複雑なシステムのコントローラを合成するための魅力的なデータ駆動パラダイムを提供するが、既存の制御指向のRL手法の多くは定常性を前提としており、システムダイナミクスや動作条件が予期せず変化するような現実の非定常配置において苦労している。
さらに、物理環境に作用するRLコントローラは、学習と実行フェーズを通して安全上の制約を満たさなければならないため、適応中に過度な違反を許容できない。
連続RLと安全RLはそれぞれ非定常性と安全性に対処しているが、それらの交叉は比較的未探索のままであり、安全を維持しながらシステムの寿命に適応できる安全な連続RLアルゴリズムの研究を動機付けている。
本研究では,安全クリティカルな連続適応を捕捉する3つのベンチマーク環境を導入し,安全なRL,連続RL,それらの組み合わせから代表的アプローチを評価することにより,安全な連続強化学習を体系的に検討する。
実験の結果, 安全制約の維持と非定常力学下での破滅的忘れの防止の間には根本的な緊張関係がみられ, 既存の手法は両目標を同時に達成できなかった。
この欠点に対処するために、このトレードオフを部分的に緩和し、そのメリットと限界を特徴づける正規化ベースの戦略を検討する。
最後に,環境変化時に自律的な動作を維持できる安全でレジリエントな学習ベースコントローラの開発に向けた,重要な課題と研究の方向性を概説する。
関連論文リスト
- RL-STPA: Adapting System-Theoretic Hazard Analysis for Safety-Critical Reinforcement Learning [0.8291942198324129]
本稿ではRL-STPA(Reinforcement Learning System-Theoretic Process Analysis)を紹介する。
RL-STPAは、RLの固有の課題に3つの重要な貢献を通して対処するために、従来のハザード分析を適用する。
RL-STPAは自律型ドローンの航法と着陸の安全上重要なテストケースである。
論文 参考訳(メタデータ) (2026-04-16T16:27:42Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization [47.30677525394649]
モデルレス強化学習における2つの確立された技術間の相互作用を解析する。
本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。
エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
論文 参考訳(メタデータ) (2025-06-12T16:34:19Z) - Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - On the Design of Safe Continual RL Methods for Control of Nonlinear Systems [2.4920094574814864]
強化学習アルゴリズムは、無人航空機やロボット工学に関連するタスクの制御に成功している。
近年,閉ループにおけるRLアルゴリズムの安全な実行を可能にするために,安全なRLが提案されている。
システムの安全性に対する継続的な適応は、未検討の問題である。
論文 参考訳(メタデータ) (2025-02-21T20:34:40Z) - Learning to explore when mistakes are not allowed [1.179778723980276]
本研究では,悪質なミスを犯すリスクを伴わずに探索する目標条件付き行動の学習を可能にする手法を提案する。
リスクのない探査はパラドックス的に見えるが、環境力学はしばしば宇宙で均一である。
本手法をシミュレーション環境で評価し,目標空間のかなりのカバレッジを提供するだけでなく,ミスの発生を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2025-02-19T15:11:51Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。