Fugu-MT 論文翻訳(概要): Mean-Variance Efficient Reinforcement Learning by Expected Quadratic Utility Maximization

論文の概要: Mean-Variance Efficient Reinforcement Learning by Expected Quadratic Utility Maximization

arxiv url: http://arxiv.org/abs/2010.01404v3
Date: Sun, 5 Sep 2021 10:28:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 08:53:48.989503
Title: Mean-Variance Efficient Reinforcement Learning by Expected Quadratic Utility Maximization
Title（参考訳）: 予測擬似実用性最大化による平均変数効率強化学習
Authors: Masahiro Kato and Kei Nakagawa and Kenshi Abe and Tetsuro Morimura
Abstract要約: 本稿では,MVトレードオフに関する効率性を実現するための効率的な政策の学習について考察する。この目的を達成するため、期待される二次効用関数を最大化するためにエージェントを訓練する。
参考スコア（独自算出の注目度）: 9.902494567482597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Risk management is critical in decision making, and mean-variance (MV) trade-off is one of the most common criteria. However, in reinforcement learning (RL) for sequential decision making under uncertainty, most of the existing methods for MV control suffer from computational difficulties caused by the double sampling problem. In this paper, in contrast to strict MV control, we consider learning MV efficient policies that achieve Pareto efficiency regarding MV trade-off. To achieve this purpose, we train an agent to maximize the expected quadratic utility function, a common objective of risk management in finance and economics. We call our approach direct expected quadratic utility maximization (EQUM). The EQUM does not suffer from the double sampling issue because it does not include gradient estimation of variance. We confirm that the maximizer of the objective in the EQUM directly corresponds to an MV efficient policy under a certain condition. We conduct experiments with benchmark settings to demonstrate the effectiveness of the EQUM.
Abstract（参考訳）: リスク管理は意思決定において重要であり、平均分散(MV)トレードオフは最も一般的な基準の1つである。しかし, 逐次決定のための強化学習(RL)では, 従来のMV制御法のほとんどは, 二重サンプリング問題に起因する計算困難に悩まされている。本稿では、厳格なMV制御とは対照的に、MVトレードオフに関するパレート効率を達成するためのMV効率ポリシーの学習を検討する。この目的を達成するため,金融・経済学におけるリスクマネジメントの共通目的である2次効用機能を最大化するためにエージェントを訓練する。我々はこのアプローチをdirect expected quadratic utility maximization (equm)と呼ぶ。 EQUMは、分散の勾配推定を含まないため、二重サンプリングの問題に悩まされない。 EQUMの目的の最大化は、一定の条件下でのMV効率ポリシーと直接対応していることを確認する。ベンチマーク設定で実験を行い,equmの有効性を実証した。

関連論文リスト

Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。そして、推定報酬を最適化することで最適な政策を学ぶ。
論文参考訳（メタデータ） (2025-01-14T12:33:02Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文参考訳（メタデータ） (2023-11-22T10:23:14Z)
Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T12:43:47Z)
Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-15T08:32:53Z)
Deterministic and Discriminative Imitation (D2-Imitation): Revisiting Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文参考訳（メタデータ） (2021-12-11T19:36:19Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。