論文の概要: An Empirical Study of Lagrangian Methods in Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.17564v1
- Date: Mon, 20 Oct 2025 14:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.477263
- Title: An Empirical Study of Lagrangian Methods in Safe Reinforcement Learning
- Title(参考訳): 安全強化学習におけるラグランジアン手法の実証的研究
- Authors: Lindsay Spoor, Álvaro Serra-Gómez, Aske Plaat, Thomas Moerland,
- Abstract要約: 安全クリティカルな領域では、性能の最大化が関連する制約と注意深くバランスをとらなければならないような制約付き最適化問題が発生する。
ラグランジアン法はこれらの課題に対処するための一般的な選択である。
Lagrangian のメソッドの有効性は、Lagrange 乗算器 $lambda$ の選択に大きく依存している。
- 参考スコア(独自算出の注目度): 0.9802224811027896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In safety-critical domains such as robotics, navigation and power systems, constrained optimization problems arise where maximizing performance must be carefully balanced with associated constraints. Safe reinforcement learning provides a framework to address these challenges, with Lagrangian methods being a popular choice. However, the effectiveness of Lagrangian methods crucially depends on the choice of the Lagrange multiplier $\lambda$, which governs the trade-off between return and constraint cost. A common approach is to update the multiplier automatically during training. Although this is standard in practice, there remains limited empirical evidence on the robustness of an automated update and its influence on overall performance. Therefore, we analyze (i) optimality and (ii) stability of Lagrange multipliers in safe reinforcement learning across a range of tasks. We provide $\lambda$-profiles that give a complete visualization of the trade-off between return and constraint cost of the optimization problem. These profiles show the highly sensitive nature of $\lambda$ and moreover confirm the lack of general intuition for choosing the optimal value $\lambda^*$. Our findings additionally show that automated multiplier updates are able to recover and sometimes even exceed the optimal performance found at $\lambda^*$ due to the vast difference in their learning trajectories. Furthermore, we show that automated multiplier updates exhibit oscillatory behavior during training, which can be mitigated through PID-controlled updates. However, this method requires careful tuning to achieve consistently better performance across tasks. This highlights the need for further research on stabilizing Lagrangian methods in safe reinforcement learning. The code used to reproduce our results can be found at https://github.com/lindsayspoor/Lagrangian_SafeRL.
- Abstract(参考訳): ロボティクス、ナビゲーション、電力システムのような安全クリティカルな領域では、性能の最大化が関連する制約と注意深くバランスをとらなければならないような制約付き最適化問題が発生する。
安全な強化学習はこれらの課題に対処するためのフレームワークを提供する。
しかし、Lagrangianメソッドの有効性は、戻り値と制約コストの間のトレードオフを管理するLagrange乗算器$\lambda$の選択に大きく依存する。
一般的なアプローチは、トレーニング中に自動的に乗算器を更新することである。
これは実際には標準であるが、自動更新の堅牢性とその全体的なパフォーマンスへの影響に関する実証的な証拠は限られている。
したがって、我々は分析する
(i)最適性及び最適性
ラグランジュ乗算器の安全強化学習における安定性について検討した。
最適化問題の戻り値と制約コストの間のトレードオフを、完全に視覚化する$\lambda$-knownsを提供しています。
これらのプロファイルは、$\lambda$の非常に敏感な性質を示し、さらに、$\lambda^*$を選択するための一般的な直観が欠如していることを確認する。
また,自動乗算器更新は,学習軌跡の差が大きいため,$\lambda^*$の最適性能を超える場合があることも示唆した。
さらに,自動乗算器更新はトレーニング中に発振挙動を示し,PID制御更新によって緩和できることを示す。
しかし,本手法では,タスク間のパフォーマンスを継続的に向上するために,注意深いチューニングが必要である。
このことは、安全強化学習におけるラグランジュ的手法の安定化に関するさらなる研究の必要性を強調している。
結果の再現に使われるコードは https://github.com/lindsayspoor/Lagrangian_SafeRL にある。
関連論文リスト
- Amortized Safe Active Learning for Real-Time Data Acquisition: Pretrained Neural Policies from Simulated Nonparametric Functions [23.406516455945653]
我々は、高価なオンライン計算を事前訓練されたニューラルポリシーで置き換える、償却された安全なALフレームワークを提案する。
我々のフレームワークはモジュール化されており、安全要件を省略することにより、制約のない、時間に敏感なALタスクに適応することができる。
論文 参考訳(メタデータ) (2025-01-26T09:05:52Z) - Highway Reinforcement Learning [35.980387097763035]
一連の政策によって収集された多段階のオフ政治データからの学習は、強化学習(RL)の中核的な問題である
我々は、過小評価問題を避け、最適なVFに収束する新しいISフリーマルチステップオフ政治手法を提案する。
これは、$n$が非常に大きい場合でも安全に学習する、新しい非政治的なRLアルゴリズムのファミリーを生み出します。
論文 参考訳(メタデータ) (2024-05-28T15:42:45Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。