論文の概要: Enhance the Safety in Reinforcement Learning by ADRC Lagrangian Methods
- arxiv url: http://arxiv.org/abs/2601.18142v1
- Date: Mon, 26 Jan 2026 04:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.68066
- Title: Enhance the Safety in Reinforcement Learning by ADRC Lagrangian Methods
- Title(参考訳): ADRCラグランジアン法による強化学習の安全性向上
- Authors: Mingxu Zhang, Huicheng Zhang, Jiaming Ji, Yaodong Yang, Ying Sun,
- Abstract要約: 安全強化学習(Safe RL)は、安全制約を満たしつつ報酬を最大化することを目指している。
PIDや古典ラグランジアン法を含む既存のアプローチは、振動と頻繁な安全違反に悩まされている。
本稿では,ADRC(Active disturbance Rejection Control)を利用したADRC-Lagrangian法を提案する。
- 参考スコア(独自算出の注目度): 22.59378743011815
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safe reinforcement learning (Safe RL) seeks to maximize rewards while satisfying safety constraints, typically addressed through Lagrangian-based methods. However, existing approaches, including PID and classical Lagrangian methods, suffer from oscillations and frequent safety violations due to parameter sensitivity and inherent phase lag. To address these limitations, we propose ADRC-Lagrangian methods that leverage Active Disturbance Rejection Control (ADRC) for enhanced robustness and reduced oscillations. Our unified framework encompasses classical and PID Lagrangian methods as special cases while significantly improving safety performance. Extensive experiments demonstrate that our approach reduces safety violations by up to 74%, constraint violation magnitudes by 89%, and average costs by 67\%, establishing superior effectiveness for Safe RL in complex environments.
- Abstract(参考訳): 安全強化学習(Safe RL)は、安全制約を満たしながら報酬を最大化することを目的としており、通常はラグランジアンベースの手法で対処される。
しかしながら、PID法や古典ラグランジアン法を含む既存のアプローチは、パラメータ感度と固有の位相ラグによる振動や頻繁な安全違反に悩まされている。
これらの制約に対処するために,ADRC(Active disturbance Rejection Control)を利用したADRC-Lagrangian法を提案する。
我々の統合されたフレームワークは、古典的およびPIDラグランジアン手法を特別なケースとして含み、安全性を著しく向上させる。
提案手法は, 安全違反を最大74%, 拘束違反を最大89%, 平均コストを67%削減し, 複雑な環境下での安全RLの優れた有効性を実証した。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Separated Proportional-Integral Lagrangian for Chance Constrained
Reinforcement Learning [6.600423613245076]
安全は、自動運転のような現実世界のタスクに適用される強化学習に不可欠です。
高い確率で状態制約の満足度を保証する機会制約は、要求を表すのに適しています。
既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。
論文 参考訳(メタデータ) (2021-02-17T02:40:01Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。