論文の概要: Safe Langevin Soft Actor Critic
- arxiv url: http://arxiv.org/abs/2602.00587v1
- Date: Sat, 31 Jan 2026 08:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.271839
- Title: Safe Langevin Soft Actor Critic
- Title(参考訳): 安全なランジェヴィン・ソフトアクター批判
- Authors: Mahesh Keswani, Samyak Jain, Raunak P. Bhattacharyya,
- Abstract要約: 拘束強化学習における報酬と安全性のバランスをとるために,安全ランゲヴィン・ソフト・アクター・クリティカル(SL-SAC)を導入した。
SL-SACは10タスク中7タスクで最低コストを達成し,競争的リターンを維持していることを示す。
Safety-Gymnasiumでは、SL-SACは最先端のベースラインと比較して、速度タスクの19-63%のコスト削減を実現している。
- 参考スコア(独自算出の注目度): 10.683491090059867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing reward and safety in constrained reinforcement learning remains challenging due to poor generalization from sharp value minima and inadequate handling of heavy-tailed risk distribution. We introduce Safe Langevin Soft Actor-Critic (SL-SAC), a principled algorithm that addresses both issues through parameter-space exploration and distributional risk control. Our approach combines three key mechanisms: (1) Adaptive Stochastic Gradient Langevin Dynamics (aSGLD) for reward critics, promoting ensemble diversity and escape from poor optima; (2) distributional cost estimation via Implicit Quantile Networks (IQN) with Conditional Value-at-Risk (CVaR) optimization for tail-risk mitigation; and (3) a reactive Lagrangian relaxation scheme that adapts constraint enforcement based on the empirical CVaR of episodic costs. We provide theoretical guarantees on CVaR estimation error and demonstrate that CVaR-based Lagrange updates yield stronger constraint violation signals than expected-cost updates. On Safety-Gymnasium benchmarks, SL-SAC achieves the lowest cost in 7 out of 10 tasks while maintaining competitive returns, with cost reductions of 19-63% in velocity tasks compared to state-of-the-art baselines.
- Abstract(参考訳): 制約付き強化学習における報酬と安全性のバランスは、急激な値最小値からの一般化が乏しく、重み付きリスク分布の不十分な扱いが原因で、依然として困難である。
パラメータ空間探索と分布リスク制御により,両問題に対処するアルゴリズムである SL-SAC (Safe Langevin Soft Actor-Critic) を導入する。
提案手法は,(1)報酬批判に対する適応確率的グラディエント・ランゲヴィン・ダイナミクス(aSGLD),(2)インプリシット量子ネットワーク(IQN)による分散コスト推定,(3)エピソードコストの実証的CVaRに基づく制約執行に適応する反応性ラグランジアン緩和スキームの3つの主要なメカニズムを組み合わせたものである。
CVaR推定誤差を理論的に保証し,CVaRに基づくラグランジュ更新により,予想されるコスト更新よりも強い制約違反信号が得られることを示す。
Safety-Gymnasiumベンチマークでは、SL-SACは10タスク中7タスクで最低コストを達成し、競争リターンを維持しながら、最先端のベースラインに比べて19-63%の速度タスクのコスト削減を実現している。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Online Risk-Averse Planning in POMDPs Using Iterated CVaR Value Function [9.269394037577177]
動的リスク尺度(ICVaR)を用いた部分観測可能性下におけるリスク感受性計画に関する研究
ICVaRのポリシー評価アルゴリズムは,動作空間の濃度に依存しない有限時間性能保証を用いて開発されている。
ベンチマークPOMDP領域の実験では、提案したICVaRプランナは、リスクニュートラルなプランナに比べて、テールリスクが低いことが示されている。
論文 参考訳(メタデータ) (2026-01-28T12:48:20Z) - Extreme Value Policy Optimization for Safe Reinforcement Learning [38.341398602157575]
Constrained Reinforcement Learning (CRL)は、事前定義された制約の下でリターンを最大化することでこの問題に対処する。
しかし、予測に基づく制約は、テール分布における稀だが高影響の極端な値イベントを見落としている。
本稿では、極値理論(EVT)を利用した極値ポリシー最適化(EVO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-17T11:12:24Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。
既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。
本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-08T00:22:00Z) - Adaptive Insurance Reserving with CVaR-Constrained Reinforcement Learning under Macroeconomic Regimes [0.0]
本稿では、テールリスク感度、マクロ経済体制モデリング、規制コンプライアンスを統合した保険保留のための強化学習(RL)フレームワークを提案する。
このフレームワークは、固定ショックストレステストとシステマティック・ストラテライズド・アナリティクスに対応しており、不確実性の下での維持に原則的で原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-04-13T01:43:25Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。