論文の概要: Value-at-Risk Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.22993v1
- Date: Fri, 30 Jan 2026 13:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.486986
- Title: Value-at-Risk Constrained Policy Optimization
- Title(参考訳): Value-at-Risk Constrained Policy Optimization
- Authors: Rohan Tangri, Jan-Peter Calliess,
- Abstract要約: VaR-CPOは安全な探査が可能で、実行可能な環境でのトレーニング中に制約違反をゼロにする。
我々は、一方的なチェビシェフの不等式を用いて、コストリターンの最初の2つの瞬間に基づいて、トラクタブル・サロゲートを得る。
- 参考スコア(独自算出の注目度): 0.042970700836450486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Value-at-Risk Constrained Policy Optimization algorithm (VaR-CPO), a sample efficient and conservative method designed to optimize Value-at-Risk (VaR) constraints directly. Empirically, we demonstrate that VaR-CPO is capable of safe exploration, achieving zero constraint violations during training in feasible environments, a critical property that baseline methods fail to uphold. To overcome the inherent non-differentiability of the VaR constraint, we employ the one-sided Chebyshev inequality to obtain a tractable surrogate based on the first two moments of the cost return. Additionally, by extending the trust-region framework of the Constrained Policy Optimization (CPO) method, we provide rigorous worst-case bounds for both policy improvement and constraint violation during the training process.
- Abstract(参考訳): 本稿では,VaR(Value-at-Risk Constrained Policy Optimization)アルゴリズム(VaR-CPO)を紹介する。
実証実験により、VaR-CPOは安全な探索が可能であり、実行可能環境でのトレーニング中に制約違反をゼロにすることができることが実証された。
本稿では,VaR制約の非微分性を克服するため,一方のチェビシェフ不等式を用いて,コストリターンの最初の2つのモーメントに基づいてトラクタブルサロゲートを得る。
さらに、制約付き政策最適化(CPO)手法の信頼領域フレームワークを拡張して、トレーニングプロセス中の政策改善と制約違反の両方に厳格な最悪のケース境界を提供する。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本研究では,モデルフリーでエピソードな環境において,新しいタスク固有ポリシーの安全性特性に違反する確率に制約を課す理論的結果を示す。
この境界は、時間的に拡張された性質(安全性の他に)や堅牢な制御問題にも適用できる。
本研究は,このトレードオフを実証し,経験的違反率から得られる理論的境界と後続境界とを比較した実験結果である。
論文 参考訳(メタデータ) (2025-04-08T19:09:07Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。