論文の概要: Safety-Biased Policy Optimisation: Towards Hard-Constrained Reinforcement Learning via Trust Regions
- arxiv url: http://arxiv.org/abs/2512.23770v1
- Date: Mon, 29 Dec 2025 07:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.155576
- Title: Safety-Biased Policy Optimisation: Towards Hard-Constrained Reinforcement Learning via Trust Regions
- Title(参考訳): 安全に配慮した政策最適化 : 信頼地域を通したハードコントラスト強化学習に向けて
- Authors: Ankit Kanwar, Dominik Wagner, Luke Ong,
- Abstract要約: 安全クリティカルドメインにおける強化学習(RL)は、安全制約に厳格に固執しつつ報酬を最大化することを要求する。
本稿では、制約の厳しいRLのための新しい信頼領域アルゴリズムであるSB-TRPO(Safety-Biased Trust Region Optimization)を提案する。
- 参考スコア(独自算出の注目度): 7.419036996978718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) in safety-critical domains requires agents to maximise rewards while strictly adhering to safety constraints. Existing approaches, such as Lagrangian and projection-based methods, often either fail to ensure near-zero safety violations or sacrifice reward performance in the face of hard constraints. We propose Safety-Biased Trust Region Policy Optimisation (SB-TRPO), a new trust-region algorithm for hard-constrained RL. SB-TRPO adaptively biases policy updates towards constraint satisfaction while still seeking reward improvement. Concretely, it performs trust-region updates using a convex combination of the natural policy gradients of cost and reward, ensuring a fixed fraction of optimal cost reduction at each step. We provide a theoretical guarantee of local progress towards safety, with reward improvement when gradients are suitably aligned. Experiments on standard and challenging Safety Gymnasium tasks show that SB-TRPO consistently achieves the best balance of safety and meaningful task completion compared to state-of-the-art methods.
- Abstract(参考訳): 安全クリティカルドメインにおける強化学習(RL)は、安全制約に厳格に固執しつつ報酬を最大化することを要求する。
ラグランジアンやプロジェクションベースの手法のような既存のアプローチは、しばしば、ほとんどゼロに近い安全違反を保証できないか、厳しい制約に直面して報酬のパフォーマンスを犠牲にする。
本稿では、制約の厳しいRLのための新しい信頼領域アルゴリズムであるSB-TRPO(Safety-Biased Trust Region Policy Optimisation)を提案する。
SB-TRPOは、報酬の改善を求めながら、政策更新を制約満足度に適応的にバイアスする。
具体的には、コストと報酬の自然政策勾配の凸結合を用いて信頼領域更新を行い、各ステップで最適なコスト削減の一定割合を確保する。
我々は,勾配が適切に整列された場合の報酬改善を図り,安全に向けた局所的な進歩を理論的に保証する。
SB-TRPOは、最先端の手法と比較して、安全と有意義なタスク完了の最良のバランスを一貫して達成している。
関連論文リスト
- SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-26T14:50:01Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。