論文の概要: Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration
- arxiv url: http://arxiv.org/abs/2312.11797v1
- Date: Tue, 19 Dec 2023 02:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:26:10.253927
- Title: Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration
- Title(参考訳): 不完全市場におけるマートンの戦略学習:再帰的エントロピー正規化とバイアスドガウス探索
- Authors: Min Dai, Yuchao Dong, Yanwei Jia, and Xun Yu Zhou
- Abstract要約: 我々は、未知市場を探索して最適なポートフォリオポリシーを直接学習するために、強化学習(RL)アプローチを採用する。
本稿では,結果の誤りを解析し,探索のレベルが学習方針にどのように影響するかを示す。
- 参考スコア(独自算出の注目度): 11.774563966512709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Merton's expected utility maximization problem in an incomplete
market, characterized by a factor process in addition to the stock price
process, where all the model primitives are unknown. We take the reinforcement
learning (RL) approach to learn optimal portfolio policies directly by
exploring the unknown market, without attempting to estimate the model
parameters. Based on the entropy-regularization framework for general
continuous-time RL formulated in Wang et al. (2020), we propose a recursive
weighting scheme on exploration that endogenously discounts the current
exploration reward by the past accumulative amount of exploration. Such a
recursive regularization restores the optimality of Gaussian exploration.
However, contrary to the existing results, the optimal Gaussian policy turns
out to be biased in general, due to the interwinding needs for hedging and for
exploration. We present an asymptotic analysis of the resulting errors to show
how the level of exploration affects the learned policies. Furthermore, we
establish a policy improvement theorem and design several RL algorithms to
learn Merton's optimal strategies. At last, we carry out both simulation and
empirical studies with a stochastic volatility environment to demonstrate the
efficiency and robustness of the RL algorithms in comparison to the
conventional plug-in method.
- Abstract(参考訳): 不完全市場におけるMertonの予測効用最大化問題について検討し,すべてのモデルプリミティブが不明な株価プロセスに加えて因子プロセスが特徴である。
我々は、モデルパラメーターを見積もることなく、未知の市場を探索し、最適ポートフォリオポリシーを直接学習する強化学習(RL)アプローチを採用する。
Wang et al. (2020) で定式化された一般連続時間RLのエントロピー規則化フレームワークに基づいて,過去の累積探査量による現在の探査報酬を不均一に割引する再帰重み付け手法を提案する。
このような再帰正規化はガウス探索の最適性を取り戻す。
しかし、既存の結果とは対照的に、最適なガウスの政策は、ヘッジや探検の必要性から、一般に偏っていることが判明した。
本稿では,結果の誤りを漸近的に分析し,探索のレベルが学習方針にどのように影響するかを示す。
さらに,政策改善定理を確立し,マートンの最適戦略を学ぶためのrlアルゴリズムをいくつか設計する。
最後に,従来のプラグイン法と比較して,RLアルゴリズムの効率性とロバスト性を実証するために,確率的ボラティリティ環境を用いたシミュレーションおよび実験的検討を行った。
関連論文リスト
- Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning
via Langevin Monte Carlo [98.11820566044216]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。