論文の概要: Optimistic Exploration for Risk-Averse Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.08793v1
- Date: Fri, 11 Jul 2025 17:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.45393
- Title: Optimistic Exploration for Risk-Averse Constrained Reinforcement Learning
- Title(参考訳): リスク回避制約強化学習のための最適探索
- Authors: James McCarthy, Radu Marinescu, Elizabeth Daly, Ivana Dusparic,
- Abstract要約: リスク・アバース制約強化学習(RaCRL)は、稀かつ破滅的な制約違反の可能性を最小限に抑える政策を学ぶことを目的としている。
我々は,ORAC(Optimistic Risk-averse Actor Critic)と呼ばれるRaCRLの探索に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.020812117407797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Risk-averse Constrained Reinforcement Learning (RaCRL) aims to learn policies that minimise the likelihood of rare and catastrophic constraint violations caused by an environment's inherent randomness. In general, risk-aversion leads to conservative exploration of the environment which typically results in converging to sub-optimal policies that fail to adequately maximise reward or, in some cases, fail to achieve the goal. In this paper, we propose an exploration-based approach for RaCRL called Optimistic Risk-averse Actor Critic (ORAC), which constructs an exploratory policy by maximising a local upper confidence bound of the state-action reward value function whilst minimising a local lower confidence bound of the risk-averse state-action cost value function. Specifically, at each step, the weighting assigned to the cost value is increased or decreased if it exceeds or falls below the safety constraint value. This way the policy is encouraged to explore uncertain regions of the environment to discover high reward states whilst still satisfying the safety constraints. Our experimental results demonstrate that the ORAC approach prevents convergence to sub-optimal policies and improves significantly the reward-cost trade-off in various continuous control tasks such as Safety-Gymnasium and a complex building energy management environment CityLearn.
- Abstract(参考訳): リスク・アバース制約強化学習(RaCRL)は、環境固有のランダム性に起因する稀かつ破滅的な制約違反の可能性を最小化する政策を学ぶことを目的としている。
一般的に、リスク回避は、通常、報酬を適切に最大化できなかったり、場合によっては目標達成に失敗した準最適政策に収束する環境の保守的な探究につながる。
本稿では,リスク・アバース・アクター批判(ORAC)と呼ばれるRaCRLに対する探索的アプローチを提案する。これは,リスク・アバース・ステート・アクション・コスト値関数の局所的低信頼度を最小化しつつ,状態・アクション報酬値関数の局所的高信頼度を最大化することによって探索的ポリシーを構築する。
具体的には、各ステップにおいて、安全制約値を超えるか低下した場合、コスト値に割り当てられた重み付けを増減する。
このようにして、安全上の制約を満たしつつ、環境の不確実な地域を探索し、高い報酬状態を発見することが奨励される。
実験結果から,ORACアプローチは最適下方策への収束を防ぎ,安全体育館や複雑な建築エネルギー管理環境であるCityLearnなどの連続制御タスクにおける報酬コストのトレードオフを大幅に改善することが示された。
関連論文リスト
- TRC: Trust Region Conditional Value at Risk for Safe Reinforcement
Learning [16.176812250762666]
TRCと呼ばれるCVaR制約を持つ信頼領域ベースの安全なRL法を提案する。
まずCVaR上の上界を導出し、その後、信頼領域における微分可能な形で上界を近似する。
他の安全なRL法と比較して、全ての実験で制約を満たす一方、性能は1.93倍向上する。
論文 参考訳(メタデータ) (2023-12-01T04:40:47Z) - Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk [16.176812250762666]
TRCと呼ばれるオンライン安全なRL法は、信頼領域法を用いてCVaR制約されたRL問題を扱う。
複雑な環境下での優れた性能を実現し、安全制約を迅速に満たすためには、RL法を効率的にサンプリングする必要がある。
本稿では,分散シフトの効果を低減できる新しいサロゲート関数を提案するとともに,リプレイバッファから遠く離れないようにするためのアダプティブな信頼領域制約を導入する。
論文 参考訳(メタデータ) (2023-12-01T04:29:19Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - ROSARL: Reward-Only Safe Reinforcement Learning [11.998722332188]
強化学習における重要な問題は、環境の中でタスクを安全に解決することを学ぶエージェントを設計することである。
一般的な解決策は、人間の専門家が報酬関数のペナルティを定義するか、安全でない状態に達する際に最小化されるコストを定義することである。
これは簡単ではない、なぜなら、ペナルティが小さすぎると、安全でない状態に達するエージェントにつながるかもしれないし、ペナルティが大きすぎると収束する時間が増加するからである。
論文 参考訳(メタデータ) (2023-05-31T08:33:23Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。