論文の概要: Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization
- arxiv url: http://arxiv.org/abs/2506.10871v1
- Date: Thu, 12 Jun 2025 16:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.838174
- Title: Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization
- Title(参考訳): 将来の行動の生存可能性:エントロピー規則化による強化学習におけるロバスト安全性
- Authors: Pierre-François Massiani, Alexander von Rohr, Lukas Haverbeck, Sebastian Trimpe,
- Abstract要約: モデルレス強化学習における2つの確立された技術間の相互作用を解析する。
本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。
エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
- 参考スコア(独自算出の注目度): 47.30677525394649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the many recent advances in reinforcement learning (RL), the question of learning policies that robustly satisfy state constraints under unknown disturbances remains open. In this paper, we offer a new perspective on achieving robust safety by analyzing the interplay between two well-established techniques in model-free RL: entropy regularization, and constraints penalization. We reveal empirically that entropy regularization in constrained RL inherently biases learning toward maximizing the number of future viable actions, thereby promoting constraints satisfaction robust to action noise. Furthermore, we show that by relaxing strict safety constraints through penalties, the constrained RL problem can be approximated arbitrarily closely by an unconstrained one and thus solved using standard model-free RL. This reformulation preserves both safety and optimality while empirically improving resilience to disturbances. Our results indicate that the connection between entropy regularization and robustness is a promising avenue for further empirical and theoretical investigation, as it enables robust safety in RL through simple reward shaping.
- Abstract(参考訳): 近年の強化学習(RL)の進歩にもかかわらず、未知の乱れの下で国家の制約をしっかりと満たす学習政策の問題は未解決のままである。
本稿では,モデルレスRLにおける2つの確立された手法,エントロピー正規化と制約ペナライゼーションの相互作用を分析することにより,堅牢な安全性を実現するための新たな視点を提供する。
本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りがあることを実証的に明らかにした。
さらに, ペナルティによる厳密な安全制約を緩和することにより, 拘束されたRL問題を非拘束のRLで任意に近似できることを示す。
この改革は、障害に対するレジリエンスを実証的に改善しつつ、安全性と最適性の両方を保っている。
以上の結果から, エントロピー正則化とロバストネスの関連性は, 簡単な報酬形成によるRLのロバスト安全性を実現するため, さらなる実証的・理論的研究の道筋として有望であることが示唆された。
関連論文リスト
- Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning [12.721239079824622]
予測型近似を使わずに高いレベルの安全性を実現する安全な強化学習(RL)パラダイムを提案する。
非対称分布密度を補償するために、量子勾配の傾き更新戦略を実装した。
実験により、提案モデルが安全性要件(量子的制約)を完全に満たし、高いリターンで最先端のベンチマークより優れていることが示された。
論文 参考訳(メタデータ) (2024-12-17T18:58:00Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。