論文の概要: Model-Free Risk-Sensitive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.02907v1
- Date: Thu, 4 Nov 2021 14:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 15:26:55.738689
- Title: Model-Free Risk-Sensitive Reinforcement Learning
- Title(参考訳): モデルフリーリスク感応強化学習
- Authors: Gr\'egoire Del\'etang, Jordi Grau-Moya, Markus Kunesch, Tim Genewein,
Rob Brekelmans, Shane Legg, Pedro A. Ortega
- Abstract要約: 我々は,リスクに敏感なモデルレス強化学習アルゴリズムを得るために,時間的等価学習(TD)を拡張した。
ガウス自由エネルギーは平均と分散に等価に敏感であることが知られているので、学習規則はリスクに敏感な意思決定に応用できる。
- 参考スコア(独自算出の注目度): 17.924068088408866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend temporal-difference (TD) learning in order to obtain
risk-sensitive, model-free reinforcement learning algorithms. This extension
can be regarded as modification of the Rescorla-Wagner rule, where the
(sigmoidal) stimulus is taken to be either the event of over- or
underestimating the TD target. As a result, one obtains a stochastic
approximation rule for estimating the free energy from i.i.d. samples generated
by a Gaussian distribution with unknown mean and variance. Since the Gaussian
free energy is known to be a certainty-equivalent sensitive to the mean and the
variance, the learning rule has applications in risk-sensitive decision-making.
- Abstract(参考訳): リスクに敏感でモデルフリーの強化学習アルゴリズムを得るため,td学習を拡張した。
この拡張はRescorla-Wagner則の修正と見なすことができ、これは(Sigmoidal)刺激はTD目標を過度に見積もるか過小評価するものである。
その結果、未知の平均と分散を持つガウス分布によって生成されたi.i.d.サンプルから自由エネルギーを推定する確率近似則が得られる。
ガウス自由エネルギーは平均と分散に等価に敏感であることが知られているので、学習規則はリスクに敏感な意思決定に応用できる。
関連論文リスト
- Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning [0.19418036471925312]
深部強化学習における一般化されたガウス誤差モデリングのための新しい枠組みを提案する。
我々のフレームワークは、高次モーメント、特にカルトーシスを付加することにより、エラー分散モデリングの柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-08-05T08:12:25Z) - Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty [5.710971447109951]
本稿では,連続時間リスク感応性強化学習(RL)について検討する。
従来の政策勾配表現は2次変動の非線形性に起因するリスク感受性問題には不十分である。
本稿では,メルトンの投資問題に対する提案アルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。
論文 参考訳(メタデータ) (2024-04-19T03:05:41Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Deep Evidential Learning for Bayesian Quantile Regression [3.6294895527930504]
1つの決定論的フォワードパスモデルから正確な不確実性を推定することが望ましい。
本稿では,ガウス的仮定を使わずに連続目標分布の量子化を推定できるディープベイズ量子回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-08-21T11:42:16Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。