論文の概要: A Survey of Safe Reinforcement Learning and Constrained MDPs: A Technical Survey on Single-Agent and Multi-Agent Safety
- arxiv url: http://arxiv.org/abs/2505.17342v1
- Date: Thu, 22 May 2025 23:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.732202
- Title: A Survey of Safe Reinforcement Learning and Constrained MDPs: A Technical Survey on Single-Agent and Multi-Agent Safety
- Title(参考訳): 安全強化学習と拘束型MDPに関する調査:シングルエージェントとマルチエージェントの安全性に関する技術調査
- Authors: Ankita Kushwaha, Kiran Ravish, Preeti Lamba, Pawan Kumar,
- Abstract要約: セーフ強化学習(Safe Reinforcement Learning, SafeRL)は、エージェントの学習と展開において、安全上の制約を明示的に扱う強化学習のサブフィールドである。
この調査は、制約付きマルコフ決定過程(CMDP)に基づくSafeRLの数学的に厳密な定式化の概要と、マルチエージェントセーフRL(SafeMARL)の拡張を提供する。
- 参考スコア(独自算出の注目度): 0.43685882232443657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe Reinforcement Learning (SafeRL) is the subfield of reinforcement learning that explicitly deals with safety constraints during the learning and deployment of agents. This survey provides a mathematically rigorous overview of SafeRL formulations based on Constrained Markov Decision Processes (CMDPs) and extensions to Multi-Agent Safe RL (SafeMARL). We review theoretical foundations of CMDPs, covering definitions, constrained optimization techniques, and fundamental theorems. We then summarize state-of-the-art algorithms in SafeRL for single agents, including policy gradient methods with safety guarantees and safe exploration strategies, as well as recent advances in SafeMARL for cooperative and competitive settings. Additionally, we propose five open research problems to advance the field, with three focusing on SafeMARL. Each problem is described with motivation, key challenges, and related prior work. This survey is intended as a technical guide for researchers interested in SafeRL and SafeMARL, highlighting key concepts, methods, and open future research directions.
- Abstract(参考訳): セーフ強化学習(Safe Reinforcement Learning, SafeRL)は、エージェントの学習と展開において、安全上の制約を明確に扱う強化学習のサブフィールドである。
この調査は、制約付きマルコフ決定過程(CMDP)に基づくSafeRLの数学的に厳密な定式化の概要と、マルチエージェントセーフRL(SafeMARL)の拡張を提供する。
本稿では,CMDPの理論的基礎,定義,制約付き最適化手法,基本定理について概説する。
次に,単一エージェントに対するSafeRLの最先端アルゴリズムを要約し,安全保証と安全な探索戦略を備えたポリシー勾配法,協調的かつ競争的な設定のためのSafeMARLの最近の進歩について述べる。
さらに,5つのオープンな研究課題を提案し,SafeMARLに着目した。
それぞれの問題は、モチベーション、重要な課題、関連する事前作業で説明されます。
この調査は、SafeRLとSafeMARLに興味を持つ研究者のための技術ガイドとして意図されており、重要な概念、方法、そして将来の研究方向性を強調している。
関連論文リスト
- Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - A Survey of Constraint Formulations in Safe Reinforcement Learning [15.593999581562203]
現実世界の問題に強化学習を適用する場合、安全性は重要です。
一般的な安全なRLアプローチは、期待される累積報酬を最大化する制約付き基準に基づいている。
近年のRLの安全性向上努力にもかかわらず、この分野の体系的な理解は依然として困難である。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。