論文の概要: Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis
- arxiv url: http://arxiv.org/abs/2403.08955v1
- Date: Wed, 13 Mar 2024 20:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:27:10.617534
- Title: Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis
- Title(参考訳): 効率的なリスク感作政策のグラディエントに向けて--反復複雑度分析
- Authors: Rui Liu, Erfaun Noorani, Pratap Tokekar, John S. Baras,
- Abstract要約: リスクに敏感なアルゴリズムは、リスクニュートラルなアルゴリズムに比べて、イテレーションの複雑さが向上するかどうかを検討する。
我々の理論的分析は、リスクに敏感なREINFORCEは収束に必要な反復回数を減らすことができることを示している。
シミュレーションの結果, リスク・ニュートラルなケースに比べて, 約半数のエピソードの後に, リスク・アバースのケースが収束し, より早く安定することが確認できた。
- 参考スコア(独自算出の注目度): 17.526736505065227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has shown exceptional performance across various applications, enabling autonomous agents to learn optimal policies through interaction with their environments. However, traditional RL frameworks often face challenges in terms of iteration complexity and robustness. Risk-sensitive RL, which balances expected return and risk, has been explored for its potential to yield probabilistically robust policies, yet its iteration complexity analysis remains underexplored. In this study, we conduct a thorough iteration complexity analysis for the risk-sensitive policy gradient method, focusing on the REINFORCE algorithm and employing the exponential utility function. We obtain an iteration complexity of $\mathcal{O}(\epsilon^{-2})$ to reach an $\epsilon$-approximate first-order stationary point (FOSP). We investigate whether risk-sensitive algorithms can achieve better iteration complexity compared to their risk-neutral counterparts. Our theoretical analysis demonstrates that risk-sensitive REINFORCE can have a reduced number of iterations required for convergence. This leads to improved iteration complexity, as employing the exponential utility does not entail additional computation per iteration. We characterize the conditions under which risk-sensitive algorithms can achieve better iteration complexity. Our simulation results also validate that risk-averse cases can converge and stabilize more quickly after approximately half of the episodes compared to their risk-neutral counterparts.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、様々なアプリケーションにおいて例外的な性能を示しており、自律エージェントは環境とのインタラクションを通じて最適なポリシーを学習することができる。
しかしながら、従来のRLフレームワークは、イテレーションの複雑さと堅牢性の観点から、しばしば課題に直面します。
リスクに敏感なRLは、期待されるリターンとリスクのバランスを保ち、確率論的に堅牢なポリシーをもたらす可能性について検討されてきたが、その反復複雑性解析は未定のままである。
本研究では,リスクに敏感な政策勾配法に対して,REINFORCEアルゴリズムに着目し,指数関数的効用関数を用いて,徹底的な反復複雑性解析を行う。
我々は、$\mathcal{O}(\epsilon^{-2})$の反復複雑性を求め、$\epsilon$-approximate first-order stationary point (FOSP) に達する。
リスクに敏感なアルゴリズムは、リスクニュートラルなアルゴリズムに比べて、イテレーションの複雑さが向上するかどうかを検討する。
我々の理論的分析は、リスクに敏感なREINFORCEは収束に必要な反復回数を減らすことができることを示している。
指数関数的ユーティリティを採用すると、イテレーション毎に追加の計算が不要になるため、イテレーションの複雑さが向上する。
リスクに敏感なアルゴリズムがより複雑なイテレーションを実現する条件を特徴付ける。
また, リスク・ニュートラルなケースと比較して, 約半数のエピソードの後に, リスク・アバースのケースが収束し, より早く安定できることを示した。
関連論文リスト
- SOREL: A Stochastic Algorithm for Spectral Risks Minimization [1.6574413179773761]
スペクトルリスクは機械学習、特に現実世界の意思決定において幅広い応用がある。
異なるサンプルポイントの損失に異なる重みを割り当てることで、平均的なパフォーマンスと最悪のパフォーマンスの間にモデルのパフォーマンスを配置することができる。
SORELはスペクトルリスク最小化のための収束保証をもつ最初の勾配に基づくアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-19T18:20:53Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。
予測と高い確率で、新しい過剰なリスク境界を提供する。
我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文 参考訳(メタデータ) (2022-11-03T12:40:24Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning [36.015585972493575]
本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。
Empirical Risk Minimizer (ERM) の過剰リスクは、関数クラスの Rademacher 複雑性によって有界である。
高速統計率は局所ラデマッハ複雑性のツールを使用することで達成できる。
論文 参考訳(メタデータ) (2021-03-25T14:45:29Z) - Cautiously Optimistic Policy Optimization and Exploration with Linear
Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。
本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。
その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文 参考訳(メタデータ) (2021-03-24T01:42:59Z) - A Full Characterization of Excess Risk via Empirical Risk Landscape [8.797852602680445]
本稿では,滑らかな凸関数と非損失関数の両方を持つ固有アルゴリズムにより訓練されたモデルのリスクを統一的に解析する。
論文 参考訳(メタデータ) (2020-12-04T08:24:50Z) - Beyond Worst-Case Analysis in Stochastic Approximation: Moment
Estimation Improves Instance Complexity [58.70807593332932]
近似問題に対する勾配に基づく手法のオラクル複雑性について検討する。
最悪のケースの複雑さではなく、インスタンス依存の複雑さに焦点を当てます。
提案アルゴリズムとその解析はモーメント推定の成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-06-08T09:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。