論文の概要: TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence
- arxiv url: http://arxiv.org/abs/2201.09857v1
- Date: Mon, 24 Jan 2022 18:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 16:12:33.617799
- Title: TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence
- Title(参考訳): TOPS:トランジションベースのボラティリティ制御ポリシサーチとそのグローバルコンバージェンス
- Authors: Liangliang Xu, Aiwen Jiang, Daoming Lyu, Bo Liu
- Abstract要約: 本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。
このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。
理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
- 参考スコア(独自算出の注目度): 9.607937067646617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk-averse problems receive far less attention than risk-neutral control
problems in reinforcement learning, and existing risk-averse approaches are
challenging to deploy to real-world applications. One primary reason is that
such risk-averse algorithms often learn from consecutive trajectories with a
certain length, which significantly increases the potential danger of causing
dangerous failures in practice. This paper proposes Transition-based
VOlatility-controlled Policy Search (TOPS), a novel algorithm that solves
risk-averse problems by learning from (possibly non-consecutive) transitions
instead of only consecutive trajectories. By using an actor-critic scheme with
an overparameterized two-layer neural network, our algorithm finds a globally
optimal policy at a sublinear rate with proximal policy optimization and
natural policy gradient, with effectiveness comparable to the state-of-the-art
convergence rate of risk-neutral policy-search methods. The algorithm is
evaluated on challenging Mujoco robot simulation tasks under the mean-variance
evaluation metric. Both theoretical analysis and experimental results
demonstrate a state-of-the-art level of risk-averse policy search methods.
- Abstract(参考訳): リスク回避問題は強化学習におけるリスク中立制御問題よりも注意が払われず、既存のリスク回避アプローチでは現実のアプリケーションへのデプロイが難しい。
第一の理由は、そのようなリスク回避アルゴリズムが一定の長さの連続した軌道からしばしば学習するからであり、これは実際に危険な障害を引き起こす可能性を大きく増加させる。
本稿では,連続した軌道ではなく,(非連続的な)遷移から学習することでリスク回避問題を解決する新しいアルゴリズムである遷移型VOlatility- controlled Policy Search (TOPS)を提案する。
過パラメータ2層ニューラルネットワークを用いたアクター・クリティック・スキームを用いて,リスクニュートラル・ポリシー探索手法の最先端収束率に匹敵する近位政策最適化と自然政策勾配を伴うサブリニアレートにおけるグローバル最適ポリシーを求める。
本アルゴリズムは,平均分散評価基準の下でのロボットシミュレーション課題に対して評価を行う。
理論的解析と実験結果の両方が、リスク-逆ポリシー探索法の最先端レベルを示している。
関連論文リスト
- Risk-averse learning with delayed feedback [17.626195546400247]
我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。
その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T12:32:22Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Bayesian Safe Policy Learning with Chance Constrained Optimization: Application to Military Security Assessment during the Vietnam War [0.0]
ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。
この経験的応用は、アルゴリズムによる意思決定においてしばしば発生するいくつかの方法論的課題を提起する。
論文 参考訳(メタデータ) (2023-07-17T20:59:50Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。