論文の概要: TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence
- arxiv url: http://arxiv.org/abs/2201.09857v1
- Date: Mon, 24 Jan 2022 18:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 16:12:33.617799
- Title: TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence
- Title(参考訳): TOPS:トランジションベースのボラティリティ制御ポリシサーチとそのグローバルコンバージェンス
- Authors: Liangliang Xu, Aiwen Jiang, Daoming Lyu, Bo Liu
- Abstract要約: 本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。
このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。
理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
- 参考スコア(独自算出の注目度): 9.607937067646617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk-averse problems receive far less attention than risk-neutral control
problems in reinforcement learning, and existing risk-averse approaches are
challenging to deploy to real-world applications. One primary reason is that
such risk-averse algorithms often learn from consecutive trajectories with a
certain length, which significantly increases the potential danger of causing
dangerous failures in practice. This paper proposes Transition-based
VOlatility-controlled Policy Search (TOPS), a novel algorithm that solves
risk-averse problems by learning from (possibly non-consecutive) transitions
instead of only consecutive trajectories. By using an actor-critic scheme with
an overparameterized two-layer neural network, our algorithm finds a globally
optimal policy at a sublinear rate with proximal policy optimization and
natural policy gradient, with effectiveness comparable to the state-of-the-art
convergence rate of risk-neutral policy-search methods. The algorithm is
evaluated on challenging Mujoco robot simulation tasks under the mean-variance
evaluation metric. Both theoretical analysis and experimental results
demonstrate a state-of-the-art level of risk-averse policy search methods.
- Abstract(参考訳): リスク回避問題は強化学習におけるリスク中立制御問題よりも注意が払われず、既存のリスク回避アプローチでは現実のアプリケーションへのデプロイが難しい。
第一の理由は、そのようなリスク回避アルゴリズムが一定の長さの連続した軌道からしばしば学習するからであり、これは実際に危険な障害を引き起こす可能性を大きく増加させる。
本稿では,連続した軌道ではなく,(非連続的な)遷移から学習することでリスク回避問題を解決する新しいアルゴリズムである遷移型VOlatility- controlled Policy Search (TOPS)を提案する。
過パラメータ2層ニューラルネットワークを用いたアクター・クリティック・スキームを用いて,リスクニュートラル・ポリシー探索手法の最先端収束率に匹敵する近位政策最適化と自然政策勾配を伴うサブリニアレートにおけるグローバル最適ポリシーを求める。
本アルゴリズムは,平均分散評価基準の下でのロボットシミュレーション課題に対して評価を行う。
理論的解析と実験結果の両方が、リスク-逆ポリシー探索法の最先端レベルを示している。
関連論文リスト
- Online Uniform Risk Times Sampling: First Approximation Algorithms,
Learning Augmentation with Full Confidence Interval Integration [3.861395476387163]
デジタルヘルスにおいて、限られた治療予算を利用可能なリスク時間に割り当てる戦略は、ユーザの疲労を軽減するために不可欠である。
本稿では,近似アルゴリズムフレームワーク内でのオンライン一様リスク時間サンプリング問題について,初めて紹介する。
本稿では,この問題に対する2つのオンライン近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-03T02:36:59Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Bayesian Safe Policy Learning with Chance Constrained Optimization:
Application to Military Security Assessment during the Vietnam War [0.0]
ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。
第一に、既存のアルゴリズムよりも悪い結果をもたらすリスクを特徴づけ、制御することが不可欠である。
本稿では,後続のACRiskを制御しながら,後続の期待値を最大化するベイズ政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T20:59:50Z) - Sharp high-probability sample complexities for policy evaluation with
linear function approximation [99.51752176624818]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with
Expected Conditional Risk Measures [18.46039792659141]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
我々は、対応するリスク-逆勾配アルゴリズムのグローバル収束と反復複雑性を提供する。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。