論文の概要: Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents
- arxiv url: http://arxiv.org/abs/2510.20199v1
- Date: Thu, 23 Oct 2025 04:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.330362
- Title: Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents
- Title(参考訳): 最適不確実性等価性を用いたリスク・アバース制約強化学習
- Authors: Jane H. Lee, Baturay Saglam, Spyridon Pougkakiotis, Amin Karbasi, Dionysis Kalogerias,
- Abstract要約: 制約付き最適化は強化学習(RL)における競合する目的を扱う共通のフレームワークを提供する
本稿では,最適化された確実性等価量(OCE)を用いて,報酬値と時間とともにステージごとの特性を示すリスク対応制約付きRLの枠組みを提案する。
本フレームワークは,パラメータ化された強ラグランジアン双対性フレームワークにおいて,適切な制約条件下での元の制約問題と正確に一致することを保証している。
- 参考スコア(独自算出の注目度): 29.698100324454362
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Constrained optimization provides a common framework for dealing with conflicting objectives in reinforcement learning (RL). In most of these settings, the objectives (and constraints) are expressed though the expected accumulated reward. However, this formulation neglects risky or even possibly catastrophic events at the tails of the reward distribution, and is often insufficient for high-stakes applications in which the risk involved in outliers is critical. In this work, we propose a framework for risk-aware constrained RL, which exhibits per-stage robustness properties jointly in reward values and time using optimized certainty equivalents (OCEs). Our framework ensures an exact equivalent to the original constrained problem within a parameterized strong Lagrangian duality framework under appropriate constraint qualifications, and yields a simple algorithmic recipe which can be wrapped around standard RL solvers, such as PPO. Lastly, we establish the convergence of the proposed algorithm under common assumptions, and verify the risk-aware properties of our approach through several numerical experiments.
- Abstract(参考訳): 制約付き最適化は、強化学習(RL)における競合する目的を扱うための共通のフレームワークを提供する。
これらの設定のほとんどでは、目標(および制約)は、期待される累積報酬で表現される。
しかし、この定式化は、報酬分布の尾部における危険事象や破滅的な出来事を無視するものであり、しばしば、降圧器に関わるリスクが重要となる高リスクアプリケーションには不十分である。
本研究では,リスク対応制約付きRLのフレームワークを提案する。このフレームワークは,最適化された確実性等価性(OCE)を用いて,報酬値と時間とともにステージごとのロバスト性を示す。
本フレームワークは,パラメータ化された強ラグランジアン双対性フレームワーク内の元の制約問題と,適切な制約条件下での正当性を保証し,PPOなどの標準RLソルバにラップ可能な簡単なアルゴリズム的レシピを生成する。
最後に,提案アルゴリズムの共通仮定に基づく収束性を確立し,いくつかの数値実験により提案手法のリスク認識特性を検証する。
関連論文リスト
- RiskPO: Risk-based Policy Optimization via Verifiable Reward for LLM Post-Training [13.309653291779233]
検証可能な報酬を伴う強化学習は、大規模言語モデル(LLM)の訓練後の中心パラダイムとして浮上している。
これらの問題は、稀だが有意義な推論パスを無視しながら、高確率な出力シーケンスを過度に強調することに起因すると我々は主張する。
本稿では,古典的平均的目標を原則的リスク対策に置き換えるリスクベース政策最適化(RiskPO)を提案する。
論文 参考訳(メタデータ) (2025-10-01T13:53:09Z) - Nonconvex Regularization for Feature Selection in Reinforcement Learning [7.408148824204063]
本研究では,理論収束保証付き強化学習(RL)における特徴選択のための効率的なバッチアルゴリズムを提案する。
数値実験により,提案手法が州選択シナリオを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-09-19T06:21:20Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence [0.562479170374811]
本稿では,期待報酬の最大化と関連する不確実性の最小化に対処するバンディット最適化における新たな問題設定を提案する。
固定信頼と固定最適体制の両方の下で動作可能な統一的メタ予算ゴリトミックフレームワークを提案する。
提案手法は,精度と試料効率の両面で既存手法より優れている。
論文 参考訳(メタデータ) (2025-06-27T14:21:03Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。