論文の概要: Risk-Sensitive Reinforcement Learning: a Martingale Approach to Reward
Uncertainty
- arxiv url: http://arxiv.org/abs/2006.12686v2
- Date: Tue, 15 Sep 2020 13:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:35:52.119688
- Title: Risk-Sensitive Reinforcement Learning: a Martingale Approach to Reward
Uncertainty
- Title(参考訳): リスクに敏感な強化学習:不確実性に対するmartingaleアプローチ
- Authors: Nelson Vadori and Sumitra Ganesh and Prashant Reddy and Manuela Veloso
- Abstract要約: 逐次意思決定問題における不確実性に対する感性を考慮した新しい枠組みを提案する。
本稿では,プロセスのDoob分解に基づく累積報酬に含まれるランダム性の新たな分解について述べる。
我々は、この新たなリスクに敏感なアプローチを、ポリシーと値勾配関数に基づくモデルフリーアルゴリズムに取り入れることで、強化学習の側面を革新し、グリッドの世界とポートフォリオ最適化の問題にその関連性を示す。
- 参考スコア(独自算出の注目度): 15.572157454411533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel framework to account for sensitivity to rewards
uncertainty in sequential decision-making problems. While risk-sensitive
formulations for Markov decision processes studied so far focus on the
distribution of the cumulative reward as a whole, we aim at learning policies
sensitive to the uncertain/stochastic nature of the rewards, which has the
advantage of being conceptually more meaningful in some cases. To this end, we
present a new decomposition of the randomness contained in the cumulative
reward based on the Doob decomposition of a stochastic process, and introduce a
new conceptual tool - the \textit{chaotic variation} - which can rigorously be
interpreted as the risk measure of the martingale component associated to the
cumulative reward process. We innovate on the reinforcement learning side by
incorporating this new risk-sensitive approach into model-free algorithms, both
policy gradient and value function based, and illustrate its relevance on grid
world and portfolio optimization problems.
- Abstract(参考訳): 逐次意思決定問題における不確実性に対する感性を考慮した新しい枠組みを提案する。
これまでに研究されているマルコフ決定過程のリスクに敏感な定式化は累積報酬全体の分布に焦点をあてるが、我々は、概念的に有意義であるという利点を持つ報酬の不確実かつ統計的性質に敏感な政策を学ぶことを目的としている。
この目的のために,確率過程のDoob分解に基づく累積報酬に含まれるランダム性の新たな分解を提案し,累積報酬過程に関連するマーチンゲール成分のリスク尺度として厳密に解釈できる新しい概念ツールである「textit{chaotic variation}」を紹介した。
我々は、ポリシー勾配と価値関数に基づくモデルフリーアルゴリズムにこの新たなリスクに敏感なアプローチを取り入れ、グリッドの世界とポートフォリオ最適化問題との関連性を説明することで、強化学習の側面を革新する。
関連論文リスト
- Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Regret Bounds for Markov Decision Processes with Recursive Optimized
Certainty Equivalents [3.8980564330208662]
本稿では,新しいエピソード型リスク感応型強化学習法を提案する。
本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。
我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
論文 参考訳(メタデータ) (2023-01-30T01:22:31Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。