論文の概要: Safe Continual Reinforcement Learning Methods for Nonstationary Environments. Towards a Survey of the State of the Art
- arxiv url: http://arxiv.org/abs/2601.05152v1
- Date: Thu, 08 Jan 2026 17:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.311057
- Title: Safe Continual Reinforcement Learning Methods for Nonstationary Environments. Towards a Survey of the State of the Art
- Title(参考訳): 非定常環境における安全連続強化学習手法
- Authors: Timofey Tomashevskiy,
- Abstract要約: この研究は、継続的な安全なオンライン強化学習(COSRL)手法に関する最先端の調査を提供する。
オンラインの安全強化学習アルゴリズム構築における理論的側面、課題、オープンな疑問について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work provides a state-of-the-art survey of continual safe online reinforcement learning (COSRL) methods. We discuss theoretical aspects, challenges, and open questions in building continual online safe reinforcement learning algorithms. We provide the taxonomy and the details of continual online safe reinforcement learning methods based on the type of safe learning mechanism that takes adaptation to nonstationarity into account. We categorize safety constraints formulation for online reinforcement learning algorithms, and finally, we discuss prospects for creating reliable, safe online learning algorithms. Keywords: safe RL in nonstationary environments, safe continual reinforcement learning under nonstationarity, HM-MDP, NSMDP, POMDP, safe POMDP, constraints for continual learning, safe continual reinforcement learning review, safe continual reinforcement learning survey, safe continual reinforcement learning, safe online learning under distribution shift, safe continual online adaptation, safe reinforcement learning, safe exploration, safe adaptation, constrained Markov decision processes, safe reinforcement learning, partially observable Markov decision process, safe reinforcement learning and hidden Markov decision processes, Safe Online Reinforcement Learning, safe online reinforcement learning, safe online reinforcement learning, safe meta-learning, safe meta-reinforcement learning, safe context-based reinforcement learning, formulating safety constraints for continual learning
- Abstract(参考訳): この研究は、継続的な安全なオンライン強化学習(COSRL)手法に関する最先端の調査を提供する。
オンラインの安全強化学習アルゴリズム構築における理論的側面、課題、オープンな疑問について論じる。
非定常性に適応する安全な学習機構のタイプを考慮に入れたオンライン安全強化学習手法の分類と詳細を提供する。
我々は、オンライン強化学習アルゴリズムの安全性制約の定式化を分類し、最後に、信頼性の高い安全なオンライン学習アルゴリズムを作成する可能性について議論する。
キーワード:非定常環境における安全なRL、非定常環境下での安全な連続強化学習、HM-MDP、NSMDP、POMDP、安全なPOMDP、連続学習のための制約、安全な連続強化学習調査、安全な連続強化学習、安全な連続強化学習、分散シフトによる安全なオンライン学習、安全な連続オンライン適応、安全な強化学習、安全な探索、安全なマルコフ決定プロセス、安全な強化学習、部分的に監視可能なマルコフ決定プロセス、安全な強化学習、安全なオンライン強化学習、安全なオンライン強化学習、安全なオンラインメタ強化学習、安全なメタ強化学習、安全なメタ強化学習、コンテキストベース強化学習フォーム。
関連論文リスト
- Skill-based Safe Reinforcement Learning with Risk Planning [23.15178050525514]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、RLエージェントが現実世界の環境と対話して学習を行う場合の安全性を保証することを目的としている。
そこで本稿では, オフラインのオフラインデモデータを活用することにより, 効果的な安全なRLを実現するための新しいセーフスキルプランニング(SSkP)手法を提案する。
論文 参考訳(メタデータ) (2025-05-02T22:48:27Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Safe Exploration Using Bayesian World Models and Log-Barrier Optimization [40.77789028220837]
CERLは、学習中にポリシーを安全に保ちながら、制約付きマルコフ決定プロセスを解決するための新しい方法である。
CERLは、画像観測からCMDPを解く際の安全性と最適性の観点から、現在の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-09T16:42:39Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Data Generation Method for Learning a Low-dimensional Safe Region in
Safe Reinforcement Learning [9.903083270841638]
安全強化学習は、学習プロセス中にシステムや環境が損傷を受けないようにしながら、制御ポリシーを学習することを目的としている。
高非線形・高次元力学系に安全な強化学習を実装するためには、データ駆動特徴抽出法を用いて低次元の安全な領域を見つけることが考えられる。
学習した安全性推定の信頼性はデータに依存しているため、この研究において、異なるトレーニングデータが安全な強化学習アプローチにどのように影響するかを調査する。
論文 参考訳(メタデータ) (2021-09-10T19:22:43Z) - Safe Learning in Robotics: From Learning-Based Control to Safe
Reinforcement Learning [3.9258421820410225]
我々は、機械学習を用いて、不確実性の下で安全な意思決定を実現するための最近の進歩についてレビューする。
不安定なダイナミクスを学習することで、パフォーマンスを安全に向上する学習ベースの制御アプローチ。
今後数年間、ロボット学習の分野を牽引するオープンな課題をいくつか取り上げる。
論文 参考訳(メタデータ) (2021-08-13T14:22:02Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。