Fugu-MT 論文翻訳(概要): A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization

論文の概要: A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization

arxiv url: http://arxiv.org/abs/2403.11062v3
Date: Fri, 28 Jun 2024 16:31:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 21:25:00.720134
Title: A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization
Title（参考訳）: CVaR最適化のサンプル効率向上のための簡易混合政策パラメータ化
Authors: Yudong Luo, Yangchen Pan, Han Wang, Philip Torr, Pascal Poupart,
Abstract要約: 政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面している。本稿では,リスクニュートラル政策と調整可能な政策を統合し,リスク・アバース政策を形成する簡易な混合政策パラメタライゼーションを提案する。実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。
参考スコア（独自算出の注目度）: 33.752940941471756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning algorithms utilizing policy gradients (PG) to optimize Conditional Value at Risk (CVaR) face significant challenges with sample inefficiency, hindering their practical applications. This inefficiency stems from two main facts: a focus on tail-end performance that overlooks many sampled trajectories, and the potential of gradient vanishing when the lower tail of the return distribution is overly flat. To address these challenges, we propose a simple mixture policy parameterization. This method integrates a risk-neutral policy with an adjustable policy to form a risk-averse policy. By employing this strategy, all collected trajectories can be utilized for policy updating, and the issue of vanishing gradients is counteracted by stimulating higher returns through the risk-neutral component, thus lifting the tail and preventing flatness. Our empirical study reveals that this mixture parameterization is uniquely effective across a variety of benchmark domains. Specifically, it excels in identifying risk-averse CVaR policies in some Mujoco environments where the traditional CVaR-PG fails to learn a reasonable policy.
Abstract（参考訳）: 政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面し、実用化を妨げている。この非効率性は、多くのサンプル軌道を見渡すテールエンド性能と、リターン分布の低いテールが過度に平坦であるときに勾配が消える可能性という2つの主要な事実に起因している。これらの課題に対処するために、簡単な混合ポリシーパラメータ化を提案する。この方法は、リスク中立ポリシーと調整可能なポリシーを統合し、リスク逆ポリシーを形成する。この戦略を用いることで、収集されたすべての軌跡を政策更新に利用でき、リスク中立成分を介して高いリターンを刺激し、テールを持ち上げ、平坦化を防止して、勾配の消失を防止できる。実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。具体的には、従来のCVaR-PGが合理的なポリシーを学習できないいくつかのムジョコ環境において、リスク-逆CVaRポリシーの特定に長けている。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation [16.74312997149021]
本稿では,学習に用いた軌道のトータルリターンをカプセル化することにより,最適化問題の修正を提案する。キャップが適切に設定された場合、これは元の問題と等価であることを示す。
論文参考訳（メタデータ） (2025-04-29T16:04:16Z)
Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文参考訳（メタデータ） (2024-08-30T13:33:18Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-02-09T03:01:13Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。 PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文参考訳（メタデータ） (2023-11-10T03:02:49Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization [3.621753051212441]
我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
論文参考訳（メタデータ） (2022-05-06T01:42:28Z)
Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。 VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文参考訳（メタデータ） (2021-10-17T19:28:45Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文参考訳（メタデータ） (2020-10-27T13:40:06Z)
Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文参考訳（メタデータ） (2020-02-12T18:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。