論文の概要: Mean-Variance Efficient Reinforcement Learning by Expected Quadratic
Utility Maximization
- arxiv url: http://arxiv.org/abs/2010.01404v3
- Date: Sun, 5 Sep 2021 10:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 08:53:48.989503
- Title: Mean-Variance Efficient Reinforcement Learning by Expected Quadratic
Utility Maximization
- Title(参考訳): 予測擬似実用性最大化による平均変数効率強化学習
- Authors: Masahiro Kato and Kei Nakagawa and Kenshi Abe and Tetsuro Morimura
- Abstract要約: 本稿では,MVトレードオフに関する効率性を実現するための効率的な政策の学習について考察する。
この目的を達成するため、期待される二次効用関数を最大化するためにエージェントを訓練する。
- 参考スコア(独自算出の注目度): 9.902494567482597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk management is critical in decision making, and mean-variance (MV)
trade-off is one of the most common criteria. However, in reinforcement
learning (RL) for sequential decision making under uncertainty, most of the
existing methods for MV control suffer from computational difficulties caused
by the double sampling problem. In this paper, in contrast to strict MV
control, we consider learning MV efficient policies that achieve Pareto
efficiency regarding MV trade-off. To achieve this purpose, we train an agent
to maximize the expected quadratic utility function, a common objective of risk
management in finance and economics. We call our approach direct expected
quadratic utility maximization (EQUM). The EQUM does not suffer from the double
sampling issue because it does not include gradient estimation of variance. We
confirm that the maximizer of the objective in the EQUM directly corresponds to
an MV efficient policy under a certain condition. We conduct experiments with
benchmark settings to demonstrate the effectiveness of the EQUM.
- Abstract(参考訳): リスク管理は意思決定において重要であり、平均分散(MV)トレードオフは最も一般的な基準の1つである。
しかし, 逐次決定のための強化学習(RL)では, 従来のMV制御法のほとんどは, 二重サンプリング問題に起因する計算困難に悩まされている。
本稿では、厳格なMV制御とは対照的に、MVトレードオフに関するパレート効率を達成するためのMV効率ポリシーの学習を検討する。
この目的を達成するため,金融・経済学におけるリスクマネジメントの共通目的である2次効用機能を最大化するためにエージェントを訓練する。
我々はこのアプローチをdirect expected quadratic utility maximization (equm)と呼ぶ。
EQUMは、分散の勾配推定を含まないため、二重サンプリングの問題に悩まされない。
EQUMの目的の最大化は、一定の条件下でのMV効率ポリシーと直接対応していることを確認する。
ベンチマーク設定で実験を行い,equmの有効性を実証した。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Mimicking Better by Matching the Approximate Action Distribution [48.81067017094468]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - On the Equity of Nuclear Norm Maximization in Unsupervised Domain
Adaptation [53.29437277730871]
核ノルムは、教師なし領域適応モデルの転送可能性を高める力を示している。
クラスレベルとサンプルレベルから予測的差別性と株式の両方を最大化する2つの新たな損失が提案されている。
論文 参考訳(メタデータ) (2022-04-12T07:55:47Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。