論文の概要: An Alternative to Variance: Gini Deviation for Risk-averse Policy
Gradient
- arxiv url: http://arxiv.org/abs/2307.08873v2
- Date: Wed, 9 Aug 2023 04:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:58:01.843439
- Title: An Alternative to Variance: Gini Deviation for Risk-averse Policy
Gradient
- Title(参考訳): 変数の代替:リスク-逆ポリシー勾配に対するジーニ偏差
- Authors: Yudong Luo, Guiliang Liu, Pascal Poupart, Yangchen Pan
- Abstract要約: 政策の回帰の分散を制限することは、リスク回避強化学習において一般的な選択である。
最近の手法では、プロキシとしてのステップごとの報酬分散が制限されている。
代替リスク尺度であるGini deviation を代替として用いることを提案する。
- 参考スコア(独自算出の注目度): 27.52551373791802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restricting the variance of a policy's return is a popular choice in
risk-averse Reinforcement Learning (RL) due to its clear mathematical
definition and easy interpretability. Traditional methods directly restrict the
total return variance. Recent methods restrict the per-step reward variance as
a proxy. We thoroughly examine the limitations of these variance-based methods,
such as sensitivity to numerical scale and hindering of policy learning, and
propose to use an alternative risk measure, Gini deviation, as a substitute. We
study various properties of this new risk measure and derive a policy gradient
algorithm to minimize it. Empirical evaluation in domains where risk-aversion
can be clearly defined, shows that our algorithm can mitigate the limitations
of variance-based risk measures and achieves high return with low risk in terms
of variance and Gini deviation when others fail to learn a reasonable policy.
- Abstract(参考訳): 政策の回帰の分散を制限することは、その明確な数学的定義と容易に解釈できるため、リスク回避強化学習(RL)において一般的な選択である。
従来の手法では、全戻り値の分散を直接制限する。
最近の方法は、プロキシとしてのステップごとの報酬分散を制限する。
数値スケールに対する感受性や政策学習の妨げなど,これらの分散に基づく手法の限界を徹底的に検討し,代替リスク尺度であるジーニ偏差を代替手段として用いることを提案する。
我々は,この新しいリスク尺度の諸特性を調査し,その最小化のための政策勾配アルゴリズムを導出する。
リスク回避が明確に定義できる領域における経験的評価から,本アルゴリズムは分散に基づくリスク対策の限界を緩和し,他者が合理的な方針を学習できない場合,分散やgini偏差の面で低いリスクで高いリターンを達成することができることを示した。
関連論文リスト
- Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - A Natural Actor-Critic Algorithm with Downside Risk Constraints [5.482532589225552]
我々は、その非線型性を回避するために、下の部分モーメントを上界とする新しいベルマン方程式を導入する。
我々は、この部分モーメントのプロキシが収縮であることを証明し、分散分解によるアルゴリズムの安定性の直感を与える。
提案手法を自然政策勾配に拡張し,リスクに敏感な強化学習のための3つのベンチマーク問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-08T15:44:33Z) - Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning [75.17074235764757]
割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
論文 参考訳(メタデータ) (2020-04-22T22:23:44Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。