論文の概要: Mean-Variance Efficient Reinforcement Learning with Applications to Dynamic Financial Investment
- arxiv url: http://arxiv.org/abs/2010.01404v4
- Date: Tue, 12 Nov 2024 21:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:01.179832
- Title: Mean-Variance Efficient Reinforcement Learning with Applications to Dynamic Financial Investment
- Title(参考訳): ダイナミック・ファイナンシャル・インベストメントのための平均変数効率強化学習
- Authors: Masahiro Kato, Kei Nakagawa, Kenshi Abe, Tetsuro Morimura, Kentaro Baba,
- Abstract要約: 本研究では、強化学習(RL)における平均分散(MV)トレードオフについて検討する。
期待される報奨の増大が相反する分散の増大を必要とすることを条件として,期待される二次効用を最大化するために我々の政策を訓練する手法を提案する。
我々は,最大化器がMV効率の政策として真に適していることを示した。
- 参考スコア(独自算出の注目度): 10.555644626138601
- License:
- Abstract: This study investigates the mean-variance (MV) trade-off in reinforcement learning (RL), an instance of the sequential decision-making under uncertainty. Our objective is to obtain MV-efficient policies whose means and variances are located on the Pareto efficient frontier with respect to the MV trade-off; under the condition, any increase in the expected reward would necessitate a corresponding increase in variance, and vice versa. To this end, we propose a method that trains our policy to maximize the expected quadratic utility, defined as a weighted sum of the first and second moments of the rewards obtained through our policy. We subsequently demonstrate that the maximizer indeed qualifies as an MV-efficient policy. Previous studies that employed constrained optimization to address the MV trade-off have encountered computational challenges. However, our approach is more computationally efficient as it eliminates the need for gradient estimation of variance, a contributing factor to the double sampling issue observed in existing methodologies. Through experimentation, we validate the efficacy of our approach.
- Abstract(参考訳): 本研究では,不確実性を考慮した逐次意思決定の事例である強化学習(RL)における平均分散(MV)トレードオフについて検討する。
我々の目的は、MVトレードオフに関してパレート効率のよいフロンティアに手段と分散が配置されているMV効率の政策を得ることであり、その条件下では、期待される報酬の増加は、変動の増加を必要とし、その逆も必要である。
そこで本稿では,提案する2次効用を最大化するために政策を訓練する手法を提案し,この方針により得られる報奨の1次と2次を重み付けした和として定義する。
その後、最大化器がMV効率の政策として真に適していることが証明された。
MVトレードオフに対処するために制約付き最適化を用いたこれまでの研究は、計算上の課題に直面してきた。
しかし,本手法は,既存手法で観測された二重サンプリング問題への寄与要因である分散の勾配推定を不要にするため,より計算的に効率的である。
実験を通じて,我々のアプローチの有効性を検証する。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - On the Equity of Nuclear Norm Maximization in Unsupervised Domain
Adaptation [53.29437277730871]
核ノルムは、教師なし領域適応モデルの転送可能性を高める力を示している。
クラスレベルとサンプルレベルから予測的差別性と株式の両方を最大化する2つの新たな損失が提案されている。
論文 参考訳(メタデータ) (2022-04-12T07:55:47Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。