Fugu-MT 論文翻訳(概要): Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis

論文の概要: Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis

arxiv url: http://arxiv.org/abs/2403.08955v1
Date: Wed, 13 Mar 2024 20:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 22:27:10.617534
Title: Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis
Title（参考訳）: 効率的なリスク感作政策のグラディエントに向けて--反復複雑度分析
Authors: Rui Liu, Erfaun Noorani, Pratap Tokekar, John S. Baras,
Abstract要約: リスクに敏感なアルゴリズムは、リスクニュートラルなアルゴリズムに比べて、イテレーションの複雑さが向上するかどうかを検討する。我々の理論的分析は、リスクに敏感なREINFORCEは収束に必要な反復回数を減らすことができることを示している。シミュレーションの結果, リスク・ニュートラルなケースに比べて, 約半数のエピソードの後に, リスク・アバースのケースが収束し, より早く安定することが確認できた。
参考スコア（独自算出の注目度）: 17.526736505065227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) has shown exceptional performance across various applications, enabling autonomous agents to learn optimal policies through interaction with their environments. However, traditional RL frameworks often face challenges in terms of iteration complexity and robustness. Risk-sensitive RL, which balances expected return and risk, has been explored for its potential to yield probabilistically robust policies, yet its iteration complexity analysis remains underexplored. In this study, we conduct a thorough iteration complexity analysis for the risk-sensitive policy gradient method, focusing on the REINFORCE algorithm and employing the exponential utility function. We obtain an iteration complexity of $\mathcal{O}(\epsilon^{-2})$ to reach an $\epsilon$-approximate first-order stationary point (FOSP). We investigate whether risk-sensitive algorithms can achieve better iteration complexity compared to their risk-neutral counterparts. Our theoretical analysis demonstrates that risk-sensitive REINFORCE can have a reduced number of iterations required for convergence. This leads to improved iteration complexity, as employing the exponential utility does not entail additional computation per iteration. We characterize the conditions under which risk-sensitive algorithms can achieve better iteration complexity. Our simulation results also validate that risk-averse cases can converge and stabilize more quickly after approximately half of the episodes compared to their risk-neutral counterparts.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、様々なアプリケーションにおいて例外的な性能を示しており、自律エージェントは環境とのインタラクションを通じて最適なポリシーを学習することができる。しかしながら、従来のRLフレームワークは、イテレーションの複雑さと堅牢性の観点から、しばしば課題に直面します。リスクに敏感なRLは、期待されるリターンとリスクのバランスを保ち、確率論的に堅牢なポリシーをもたらす可能性について検討されてきたが、その反復複雑性解析は未定のままである。本研究では,リスクに敏感な政策勾配法に対して,REINFORCEアルゴリズムに着目し,指数関数的効用関数を用いて,徹底的な反復複雑性解析を行う。我々は、$\mathcal{O}(\epsilon^{-2})$の反復複雑性を求め、$\epsilon$-approximate first-order stationary point (FOSP) に達する。リスクに敏感なアルゴリズムは、リスクニュートラルなアルゴリズムに比べて、イテレーションの複雑さが向上するかどうかを検討する。我々の理論的分析は、リスクに敏感なREINFORCEは収束に必要な反復回数を減らすことができることを示している。指数関数的ユーティリティを採用すると、イテレーション毎に追加の計算が不要になるため、イテレーションの複雑さが向上する。リスクに敏感なアルゴリズムがより複雑なイテレーションを実現する条件を特徴付ける。また, リスク・ニュートラルなケースと比較して, 約半数のエピソードの後に, リスク・アバースのケースが収束し, より早く安定できることを示した。

関連論文リスト

Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。 RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文参考訳（メタデータ） (2025-03-22T03:18:09Z)
Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文参考訳（メタデータ） (2024-11-29T14:22:51Z)
Risk-averse learning with delayed feedback [17.626195546400247]
遅延したフィードバックは、リスクを効果的に評価し、管理することを困難にします。我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-09-25T12:32:22Z)
SOREL: A Stochastic Algorithm for Spectral Risks Minimization [1.6574413179773761]
スペクトルリスクは機械学習、特に現実世界の意思決定において幅広い応用がある。異なるサンプルポイントの損失に異なる重みを割り当てることで、平均的なパフォーマンスと最悪のパフォーマンスの間にモデルのパフォーマンスを配置することができる。 SORELはスペクトルリスク最小化のための収束保証をもつ最初の勾配に基づくアルゴリズムである。
論文参考訳（メタデータ） (2024-07-19T18:20:53Z)
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文参考訳（メタデータ） (2024-07-10T13:09:52Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-15T14:55:38Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。 AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-19T14:46:57Z)
Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。予測と高い確率で、新しい過剰なリスク境界を提供する。我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文参考訳（メタデータ） (2022-11-03T12:40:24Z)
RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文参考訳（メタデータ） (2022-09-09T00:34:58Z)
Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文参考訳（メタデータ） (2022-06-29T14:11:15Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
TOPS: Transition-based VOlatility-controlled Policy Search and its Global Convergence [9.607937067646617]
本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
論文参考訳（メタデータ） (2022-01-24T18:29:23Z)
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文参考訳（メタデータ） (2021-08-25T17:09:01Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning [36.015585972493575]
本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。 Empirical Risk Minimizer (ERM) の過剰リスクは、関数クラスの Rademacher 複雑性によって有界である。高速統計率は局所ラデマッハ複雑性のツールを使用することで達成できる。
論文参考訳（メタデータ） (2021-03-25T14:45:29Z)
Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文参考訳（メタデータ） (2021-03-24T01:42:59Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
A Full Characterization of Excess Risk via Empirical Risk Landscape [8.797852602680445]
本稿では,滑らかな凸関数と非損失関数の両方を持つ固有アルゴリズムにより訓練されたモデルのリスクを統一的に解析する。
論文参考訳（メタデータ） (2020-12-04T08:24:50Z)
Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。 RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文参考訳（メタデータ） (2020-06-22T19:28:26Z)
Beyond Worst-Case Analysis in Stochastic Approximation: Moment Estimation Improves Instance Complexity [58.70807593332932]
近似問題に対する勾配に基づく手法のオラクル複雑性について検討する。最悪のケースの複雑さではなく、インスタンス依存の複雑さに焦点を当てます。提案アルゴリズムとその解析はモーメント推定の成功を理論的に正当化する。
論文参考訳（メタデータ） (2020-06-08T09:25:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。