論文の概要: Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.03900v1
- Date: Sat, 05 Jul 2025 04:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.928045
- Title: Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning
- Title(参考訳): オンライン・オフライン強化学習のための静的スペクトルリスク対策を用いたリスク感受性アクター批判
- Authors: Mehrdad Moghimi, Hyejin Ku,
- Abstract要約: 静的スペクトルリスク対策(SRM)の最適化のための新しい枠組みを提案する。
我々のアルゴリズムは、さまざまなドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法より一貫して優れています。
- 参考スコア(独自算出の注目度): 4.8342038441006805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Distributional Reinforcement Learning (DRL) has introduced a natural way to incorporate risk sensitivity into value-based and actor-critic methods by employing risk measures other than expectation in the value function. While this approach is widely adopted in many online and offline RL algorithms due to its simplicity, the naive integration of risk measures often results in suboptimal policies. This limitation can be particularly harmful in scenarios where the need for effective risk-sensitive policies is critical and worst-case outcomes carry severe consequences. To address this challenge, we propose a novel framework for optimizing static Spectral Risk Measures (SRM), a flexible family of risk measures that generalizes objectives such as CVaR and Mean-CVaR, and enables the tailoring of risk preferences. Our method is applicable to both online and offline RL algorithms. We establish theoretical guarantees by proving convergence in the finite state-action setting. Moreover, through extensive empirical evaluations, we demonstrate that our algorithms consistently outperform existing risk-sensitive methods in both online and offline environments across diverse domains.
- Abstract(参考訳): 分散強化学習(DRL)の開発は、価値関数の期待以外のリスク対策を利用することで、リスク感度を価値ベースおよびアクター批判的手法に組み込む自然な方法を導入している。
このアプローチは多くのオンラインおよびオフラインのRLアルゴリズムでその単純さのために広く採用されているが、リスク対策の素直な統合は、しばしば準最適ポリシーをもたらす。
この制限は、効果的なリスクに敏感なポリシーの必要性が重要であり、最悪の結果が深刻な結果をもたらすシナリオでは特に有害である。
本研究では, CVaR や Mean-CVaR などの目標を一般化し, リスク選好の調整を可能にする, 静的スペクトルリスク対策 (SRM) を最適化するための新しい枠組みを提案する。
本手法はオンラインRLアルゴリズムとオフラインRLアルゴリズムの両方に適用可能である。
有限状態-作用設定における収束を証明することによって理論的保証を確立する。
さらに、広範囲な実証評価により、我々のアルゴリズムは、様々なドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法を一貫して上回っていることを示す。
関連論文リスト
- Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-03T20:25:41Z) - Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。
提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。
我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-11-29T14:22:51Z) - A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。
楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。
我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures [17.668631383216233]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
政策グラディエント(PG)法がリスクニュートラルな場合と同じグローバル収束を保証するかどうかは不明だ。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-10T10:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。