Fugu-MT 論文翻訳(概要): On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures

論文の概要: On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures

arxiv url: http://arxiv.org/abs/2301.10932v2
Date: Tue, 30 May 2023 01:14:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 01:46:34.362422
Title: On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures
Title（参考訳）: 条件付きリスク対策を考慮したリスク・アバース政策グラディエント手法のグローバル収束について
Authors: Xian Yu and Lei Ying
Abstract要約: リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。我々は、対応するリスク-逆勾配アルゴリズムのグローバル収束と反復複雑性を提供する。
参考スコア（独自算出の注目度）: 18.46039792659141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Risk-sensitive reinforcement learning (RL) has become a popular tool to control the risk of uncertain outcomes and ensure reliable performance in various sequential decision-making problems. While policy gradient methods have been developed for risk-sensitive RL, it remains unclear if these methods enjoy the same global convergence guarantees as in the risk-neutral case. In this paper, we consider a class of dynamic time-consistent risk measures, called Expected Conditional Risk Measures (ECRMs), and derive policy gradient updates for ECRM-based objective functions. Under both constrained direct parameterization and unconstrained softmax parameterization, we provide global convergence and iteration complexities of the corresponding risk-averse policy gradient algorithms. We further test risk-averse variants of REINFORCE and actor-critic algorithms to demonstrate the efficacy of our method and the importance of risk control.
Abstract（参考訳）: リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御し、様々なシーケンシャルな意思決定問題において信頼性の高い性能を確保するための一般的なツールとなっている。リスクに敏感なrlのためのポリシーグラデーション手法が開発されているが、リスク中立の場合と同じグローバルコンバージェンス保証を享受するかどうかはまだ不明である。本稿では,予測条件付きリスク対策 (ECRMs) と呼ばれる動的時間整合性リスク対策のクラスを考察し,ECRMに基づく目標関数に対する政策勾配の更新を導出する。制約付き直接パラメタライゼーションと制約なしソフトマックスパラメタライゼーションの両方の下で、我々は、対応するリスク-逆ポリシー勾配アルゴリズムのグローバル収束と反復複雑度を提供する。本手法の有効性とリスク制御の重要性を実証するために,強化型およびアクタ批判型アルゴリズムのリスク回避型をさらに検証する。

関連論文リスト

Risk-Sensitive Exponential Actor Critic [8.650002078377485]
リスクに敏感な指数的アクター批判(RSEAC)は,既存のアプローチに比べて数値的に安定な更新をもたらすことを示す。 rsEACは、MuJoCoにおけるリスクに敏感な継続的タスクのバリエーションに挑戦する上で、リスクに敏感なポリシを確実に学習する。
論文参考訳（メタデータ） (2026-02-06T21:23:43Z)
Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。 RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文参考訳（メタデータ） (2025-12-30T14:38:02Z)
Risk-Averse Total-Reward Reinforcement Learning [9.129584027640405]
リスク逆トータルリワードマルコフ決定プロセス(MDP)は、未公表の無限水平目標をモデル化し解決するための有望なフレームワークを提供する。エントロピーリスク測度(ERM)やエントロピーバリュー・アット・リスク(EVaR)のような既存のリスク測度のためのモデルベースのアルゴリズムは、小さな問題に対して有効であるが、遷移確率への完全なアクセスが必要である。本稿では,完全逆ERMとEVaRの目標に対して,コンバージェンスと性能保証を両立させるためのQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-26T18:10:51Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文参考訳（メタデータ） (2024-03-10T21:45:12Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文参考訳（メタデータ） (2023-06-20T15:51:25Z)
RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文参考訳（メタデータ） (2022-09-09T00:34:58Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-22T17:26:28Z)
On the Convergence and Optimality of Policy Gradient for Markov Coherent Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文参考訳（メタデータ） (2021-03-04T04:11:09Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。