Fugu-MT 論文翻訳(概要): TOPS: Transition-based VOlatility-controlled Policy Search and its Global Convergence

論文の概要: TOPS: Transition-based VOlatility-controlled Policy Search and its Global Convergence

arxiv url: http://arxiv.org/abs/2201.09857v1
Date: Mon, 24 Jan 2022 18:29:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-25 16:12:33.617799
Title: TOPS: Transition-based VOlatility-controlled Policy Search and its Global Convergence
Title（参考訳）: TOPS:トランジションベースのボラティリティ制御ポリシサーチとそのグローバルコンバージェンス
Authors: Liangliang Xu, Aiwen Jiang, Daoming Lyu, Bo Liu
Abstract要約: 本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
参考スコア（独自算出の注目度）: 9.607937067646617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Risk-averse problems receive far less attention than risk-neutral control problems in reinforcement learning, and existing risk-averse approaches are challenging to deploy to real-world applications. One primary reason is that such risk-averse algorithms often learn from consecutive trajectories with a certain length, which significantly increases the potential danger of causing dangerous failures in practice. This paper proposes Transition-based VOlatility-controlled Policy Search (TOPS), a novel algorithm that solves risk-averse problems by learning from (possibly non-consecutive) transitions instead of only consecutive trajectories. By using an actor-critic scheme with an overparameterized two-layer neural network, our algorithm finds a globally optimal policy at a sublinear rate with proximal policy optimization and natural policy gradient, with effectiveness comparable to the state-of-the-art convergence rate of risk-neutral policy-search methods. The algorithm is evaluated on challenging Mujoco robot simulation tasks under the mean-variance evaluation metric. Both theoretical analysis and experimental results demonstrate a state-of-the-art level of risk-averse policy search methods.
Abstract（参考訳）: リスク回避問題は強化学習におけるリスク中立制御問題よりも注意が払われず、既存のリスク回避アプローチでは現実のアプリケーションへのデプロイが難しい。第一の理由は、そのようなリスク回避アルゴリズムが一定の長さの連続した軌道からしばしば学習するからであり、これは実際に危険な障害を引き起こす可能性を大きく増加させる。本稿では,連続した軌道ではなく,(非連続的な)遷移から学習することでリスク回避問題を解決する新しいアルゴリズムである遷移型VOlatility- controlled Policy Search (TOPS)を提案する。過パラメータ2層ニューラルネットワークを用いたアクター・クリティック・スキームを用いて,リスクニュートラル・ポリシー探索手法の最先端収束率に匹敵する近位政策最適化と自然政策勾配を伴うサブリニアレートにおけるグローバル最適ポリシーを求める。本アルゴリズムは,平均分散評価基準の下でのロボットシミュレーション課題に対して評価を行う。理論的解析と実験結果の両方が、リスク-逆ポリシー探索法の最先端レベルを示している。

関連論文リスト

Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。 RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文参考訳（メタデータ） (2025-03-22T03:18:09Z)
Risk-averse learning with delayed feedback [17.626195546400247]
我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T12:32:22Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis [16.32678094159896]
強化学習(Reinforcement Learning, RL)は、様々なアプリケーションで例外的な性能を示している。リスクに敏感な政策勾配法は、期待されるリターンとリスク対策の両方を取り入れ、より堅牢な政策を得る能力について検討されてきた。本稿では,リスクに敏感なポリシー勾配法に対して,指数関数的効用関数を持つREINFORCEアルゴリズムに着目し,厳密な反復複雑性解析を行う。
論文参考訳（メタデータ） (2024-03-13T20:50:49Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Bayesian Safe Policy Learning with Chance Constrained Optimization: Application to Military Security Assessment during the Vietnam War [0.0]
ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。この経験的応用は、アルゴリズムによる意思決定においてしばしば発生するいくつかの方法論的課題を提起する。
論文参考訳（メタデータ） (2023-07-17T20:59:50Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文参考訳（メタデータ） (2022-08-01T11:33:12Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文参考訳（メタデータ） (2021-02-22T14:28:03Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。