論文の概要: Safe Reinforcement Learning with Preference-based Constraint Inference
- arxiv url: http://arxiv.org/abs/2603.23565v1
- Date: Tue, 24 Mar 2026 08:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.942001
- Title: Safe Reinforcement Learning with Preference-based Constraint Inference
- Title(参考訳): 規範に基づく制約推論による安全強化学習
- Authors: Chenglin Li, Guangchun Ruan, Hua Geng,
- Abstract要約: 安全RLにおける制約推論のための規範に基づく制約付き強化学習(PbCRL)を提案する。
PbCRLは真の安全要件との整合性を向上し、安全性と報酬の点で最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 28.363990267209584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) is a standard paradigm for safety-critical decision making. However, real-world safety constraints can be complex, subjective, and even hard to explicitly specify. Existing works on constraint inference rely on restrictive assumptions or extensive expert demonstrations, which is not realistic in many real-world applications. How to cheaply and reliably learn these constraints is the major challenge we focus on in this study. While inferring constraints from human preferences offers a data-efficient alternative, we identify the popular Bradley-Terry (BT) models fail to capture the asymmetric, heavy-tailed nature of safety costs, resulting in risk underestimation. It is still rare in the literature to understand the impacts of BT models on the downstream policy learning. To address the above knowledge gaps, we propose a novel approach namely Preference-based Constrained Reinforcement Learning (PbCRL). We introduce a novel dead zone mechanism into preference modeling and theoretically prove that it encourages heavy-tailed cost distributions, thereby achieving better constraint alignment. Additionally, we incorporate a Signal-to-Noise Ratio (SNR) loss to encourage exploration by cost variances, which is found to benefit policy learning. Further, two-stage training strategy are deployed to lower online labeling burdens while adaptively enhancing constraint satisfaction. Empirical results demonstrate that PbCRL achieves superior alignment with true safety requirements and outperforms the state-of-the-art baselines in terms of safety and reward. Our work explores a promising and effective way for constraint inference in Safe RL, which has great potential in a range of safety-critical applications.
- Abstract(参考訳): 安全強化学習(RL)は、安全クリティカルな意思決定のための標準パラダイムである。
しかし、現実世界の安全性の制約は複雑で、主観的で、明確に指定するのは難しい。
制約推論に関する既存の研究は制限的な仮定や広範な専門家による実証に依存しており、現実の多くのアプリケーションでは現実的ではない。
これらの制約を安く、確実に学習する方法が、この研究で私たちが注目する大きな課題です。
人間の嗜好から制約を推測することは、データ効率の代替となるが、一般的なBradley-Terry(BT)モデルは、非対称で重み付けされた安全コストの性質を捉えず、リスクを過小評価する。
BTモデルが下流政策学習に与える影響を理解することは、文献ではまだ稀である。
上記の知識ギャップに対処するため,提案手法はPreference-based Constrained Reinforcement Learning (PbCRL) と呼ばれる新しいアプローチを提案する。
本稿では,新たなデッドゾーン機構を優先モデルに導入し,重み付きコスト分布の促進を理論的に証明し,より優れた制約アライメントを実現する。
さらに、コスト分散による探索を促進するために、SNR(Signal-to-Noise Ratio)の損失も取り入れた。
さらに、オンラインラベリング負担を軽減しつつ、制約満足度を適応的に高めるために、2段階のトレーニング戦略が展開される。
実験の結果,PbCRLは真の安全要件との整合性を向上し,安全性と報酬の点で最先端のベースラインを上回っていることがわかった。
我々の研究は、安全なRLにおける制約推論の有望かつ効果的な方法を探究し、様々な安全クリティカルなアプリケーションにおいて大きな可能性を秘めている。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Vulnerability Analysis of Safe Reinforcement Learning via Inverse Constrained Reinforcement Learning [1.4707788677208018]
セーフなRLポリシーの脆弱性を明らかにするための敵攻撃フレームワークを提案する。
我々のフレームワークは制約モデルとサロゲート(ラーナー)ポリシーを学習し、勾配に基づく攻撃の最適化を可能にする。
論文 参考訳(メタデータ) (2026-02-18T15:43:36Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。