論文の概要: Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis
- arxiv url: http://arxiv.org/abs/2403.08955v3
- Date: Sun, 06 Apr 2025 03:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:06:49.579268
- Title: Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis
- Title(参考訳): 効率的なリスク感作政策のグラディエントに向けて--反復複雑度分析
- Authors: Rui Liu, Anish Gupta, Erfaun Noorani, Pratap Tokekar,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、様々なアプリケーションで例外的な性能を示している。
リスクに敏感な政策勾配法は、期待されるリターンとリスク対策の両方を取り入れ、より堅牢な政策を得る能力について検討されてきた。
本稿では,リスクに敏感なポリシー勾配法に対して,指数関数的効用関数を持つREINFORCEアルゴリズムに着目し,厳密な反復複雑性解析を行う。
- 参考スコア(独自算出の注目度): 16.32678094159896
- License:
- Abstract: Reinforcement Learning (RL) has shown exceptional performance across various applications, enabling autonomous agents to learn optimal policies through interaction with their environments. However, traditional RL frameworks often face challenges in terms of iteration efficiency and robustness. Risk-sensitive policy gradient methods, which incorporate both expected return and risk measures, have been explored for their ability to yield more robust policies, yet their iteration complexity remains largely underexplored. In this work, we conduct a rigorous iteration complexity analysis for the risk-sensitive policy gradient method, focusing on the REINFORCE algorithm with an exponential utility function. We establish an iteration complexity of $\mathcal{O}(\epsilon^{-2})$ to reach an $\epsilon$-approximate first-order stationary point (FOSP). Furthermore, we investigate whether risk-sensitive algorithms can achieve better iteration complexity compared to their risk-neutral counterparts. Our analysis indicates that risk-sensitive REINFORCE can potentially converge faster. To validate our analysis, we empirically evaluate the learning performance and convergence efficiency of the risk-neutral and risk-sensitive REINFORCE algorithms in multiple environments: CartPole, MiniGrid, and Robot Navigation. Empirical results confirm that risk-averse cases can converge and stabilize faster compared to their risk-neutral counterparts. More details can be found on our website https://ruiiu.github.io/riskrl.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、様々なアプリケーションにおいて例外的な性能を示しており、自律エージェントは環境とのインタラクションを通じて最適なポリシーを学習することができる。
しかしながら、従来のRLフレームワークは、イテレーション効率と堅牢性の観点から、しばしば課題に直面します。
リスクに敏感な政策勾配法は、期待されるリターンとリスク対策の両方を取り入れ、より堅牢な政策をもたらす能力について検討されてきたが、イテレーションの複雑さはいまだに未熟である。
本研究では,リスクに敏感な政策勾配法に対して,指数関数的効用関数を持つREINFORCEアルゴリズムに着目し,厳密な反復複雑性解析を行う。
我々は、$\mathcal{O}(\epsilon^{-2})$の反復複雑性を確立し、$\epsilon$-approximate 1次定常点(FOSP)に達する。
さらに,リスクに敏感なアルゴリズムが,リスクニュートラルなアルゴリズムと比較して,イテレーションの複雑さを向上できるかどうかを検討する。
分析の結果,リスクに敏感なREINFORCEはより早く収束する可能性が示唆された。
本研究では,リスクニュートラルおよびリスクセンシティブなREINFORCEアルゴリズムの学習性能と収束効率を,CartPole,MiniGrid,Robot Navigationの複数の環境で実証的に評価した。
実験結果から, リスク逆ケースは, リスクニュートラルケースよりも早く収束し, 安定できることが明らかとなった。
詳細は私たちのWebサイトhttps://ruiiu.github.io/riskrl.comで確認できます。
関連論文リスト
- Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。
累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。
予測と高い確率で、新しい過剰なリスク境界を提供する。
我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文 参考訳(メタデータ) (2022-11-03T12:40:24Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning [36.015585972493575]
本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。
Empirical Risk Minimizer (ERM) の過剰リスクは、関数クラスの Rademacher 複雑性によって有界である。
高速統計率は局所ラデマッハ複雑性のツールを使用することで達成できる。
論文 参考訳(メタデータ) (2021-03-25T14:45:29Z) - Cautiously Optimistic Policy Optimization and Exploration with Linear
Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。
本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。
その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文 参考訳(メタデータ) (2021-03-24T01:42:59Z) - A Full Characterization of Excess Risk via Empirical Risk Landscape [8.797852602680445]
本稿では,滑らかな凸関数と非損失関数の両方を持つ固有アルゴリズムにより訓練されたモデルのリスクを統一的に解析する。
論文 参考訳(メタデータ) (2020-12-04T08:24:50Z) - Beyond Worst-Case Analysis in Stochastic Approximation: Moment
Estimation Improves Instance Complexity [58.70807593332932]
近似問題に対する勾配に基づく手法のオラクル複雑性について検討する。
最悪のケースの複雑さではなく、インスタンス依存の複雑さに焦点を当てます。
提案アルゴリズムとその解析はモーメント推定の成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-06-08T09:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。