論文の概要: Boosting CVaR Policy Optimization with Quantile Gradients
- arxiv url: http://arxiv.org/abs/2601.22100v2
- Date: Wed, 04 Feb 2026 21:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.805773
- Title: Boosting CVaR Policy Optimization with Quantile Gradients
- Title(参考訳): 量子勾配によるCVaR政策最適化の強化
- Authors: Yudong Luo, Erick Delage,
- Abstract要約: 政策勾配(CVaR-PG)を用いた条件付き値付きリスク(CVaR)の改善
量子最適化は、全てのサンプルデータを活用する動的プログラミングの定式化を認め、それによってサンプル効率が向上する。
リスク逆挙動が検証可能な領域における実証結果から,マルコフ政策クラス内のアルゴリズムはCVaR-PGにより大幅に改善されることが示された。
- 参考スコア(独自算出の注目度): 10.868006419885601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing Conditional Value-at-risk (CVaR) using policy gradient (a.k.a CVaR-PG) faces significant challenges of sample inefficiency. This inefficiency stems from the fact that it focuses on tail-end performance and overlooks many sampled trajectories. We address this problem by augmenting CVaR with an expected quantile term. Quantile optimization admits a dynamic programming formulation that leverages all sampled data, thus improves sample efficiency. This does not alter the CVaR objective since CVaR corresponds to the expectation of quantile over the tail. Empirical results in domains with verifiable risk-averse behavior show that our algorithm within the Markovian policy class substantially improves upon CVaR-PG and consistently outperforms other existing methods.
- Abstract(参考訳): 政策勾配(CVaR-PG)を用いた条件付きリスク(CVaR)の最適化は、サンプルの非効率性の重大な課題に直面している。
この非効率性は、テールエンドのパフォーマンスに焦点を当て、多くのサンプル軌跡を見落としているという事実に起因している。
CVaRを期待量項で拡張することでこの問題に対処する。
量子最適化は、全てのサンプルデータを活用する動的プログラミングの定式化を認め、それによってサンプル効率が向上する。
これはCVaRの目的を変えるものではない、なぜならCVaRは尾の上の量子化の期待に対応しているからである。
リスク逆挙動を検証可能な領域における実証結果から,マルコフ政策クラス内のアルゴリズムはCVaR-PGにより大幅に改善され,既存の手法よりも一貫して優れていた。
関連論文リスト
- Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation [16.74312997149021]
本稿では,学習に用いた軌道のトータルリターンをカプセル化することにより,最適化問題の修正を提案する。
キャップが適切に設定された場合、これは元の問題と等価であることを示す。
論文 参考訳(メタデータ) (2025-04-29T16:04:16Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Risk-averse Learning with Non-Stationary Distributions [18.15046585146849]
本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。
リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。
設計した学習アルゴリズムは,凸関数と凸関数の両方に対して高い確率で線形動的後悔を実現する。
論文 参考訳(メタデータ) (2024-04-03T18:16:47Z) - A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization [33.752940941471756]
政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面している。
本稿では,リスクニュートラル政策と調整可能な政策を統合し,リスク・アバース政策を形成する簡易な混合政策パラメタライゼーションを提案する。
実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-17T02:24:09Z) - Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion [9.792654108885676]
本研究では,長期CVaR基準による無限水平離散時間マルコフ決定過程(MDP)について検討する。
長周期CVaRの差分を2つのポリシーで定量化する擬似CVaR差分式を導出する。
本研究では, CVaRを効率的に最適化するポリシ型アルゴリズムを開発し, 混合ポリシ空間において局所最適に収束することを示す。
論文 参考訳(メタデータ) (2022-10-17T04:29:14Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。