論文の概要: Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration
- arxiv url: http://arxiv.org/abs/2312.11797v1
- Date: Tue, 19 Dec 2023 02:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:26:10.253927
- Title: Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration
- Title(参考訳): 不完全市場におけるマートンの戦略学習:再帰的エントロピー正規化とバイアスドガウス探索
- Authors: Min Dai, Yuchao Dong, Yanwei Jia, and Xun Yu Zhou
- Abstract要約: 我々は、未知市場を探索して最適なポートフォリオポリシーを直接学習するために、強化学習(RL)アプローチを採用する。
本稿では,結果の誤りを解析し,探索のレベルが学習方針にどのように影響するかを示す。
- 参考スコア(独自算出の注目度): 11.774563966512709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Merton's expected utility maximization problem in an incomplete
market, characterized by a factor process in addition to the stock price
process, where all the model primitives are unknown. We take the reinforcement
learning (RL) approach to learn optimal portfolio policies directly by
exploring the unknown market, without attempting to estimate the model
parameters. Based on the entropy-regularization framework for general
continuous-time RL formulated in Wang et al. (2020), we propose a recursive
weighting scheme on exploration that endogenously discounts the current
exploration reward by the past accumulative amount of exploration. Such a
recursive regularization restores the optimality of Gaussian exploration.
However, contrary to the existing results, the optimal Gaussian policy turns
out to be biased in general, due to the interwinding needs for hedging and for
exploration. We present an asymptotic analysis of the resulting errors to show
how the level of exploration affects the learned policies. Furthermore, we
establish a policy improvement theorem and design several RL algorithms to
learn Merton's optimal strategies. At last, we carry out both simulation and
empirical studies with a stochastic volatility environment to demonstrate the
efficiency and robustness of the RL algorithms in comparison to the
conventional plug-in method.
- Abstract(参考訳): 不完全市場におけるMertonの予測効用最大化問題について検討し,すべてのモデルプリミティブが不明な株価プロセスに加えて因子プロセスが特徴である。
我々は、モデルパラメーターを見積もることなく、未知の市場を探索し、最適ポートフォリオポリシーを直接学習する強化学習(RL)アプローチを採用する。
Wang et al. (2020) で定式化された一般連続時間RLのエントロピー規則化フレームワークに基づいて,過去の累積探査量による現在の探査報酬を不均一に割引する再帰重み付け手法を提案する。
このような再帰正規化はガウス探索の最適性を取り戻す。
しかし、既存の結果とは対照的に、最適なガウスの政策は、ヘッジや探検の必要性から、一般に偏っていることが判明した。
本稿では,結果の誤りを漸近的に分析し,探索のレベルが学習方針にどのように影響するかを示す。
さらに,政策改善定理を確立し,マートンの最適戦略を学ぶためのrlアルゴリズムをいくつか設計する。
最後に,従来のプラグイン法と比較して,RLアルゴリズムの効率性とロバスト性を実証するために,確率的ボラティリティ環境を用いたシミュレーションおよび実験的検討を行った。
関連論文リスト
- Generalized Bayesian deep reinforcement learning [2.469908534801392]
マルコフ依存を仮定した深部生成モデルを用いて未知環境のダイナミクスをモデル化する。
これらのモデルに対する可能性関数が存在しないため、一般化された予測順序(または述語)スコアリング規則(SR)を学習することでそれらを訓練する。
政策学習では,後部分布に関する期待値関数を最大化することにより,最適な政策を学習するためのトンプソンサンプリング(ETS)を提案する。
論文 参考訳(メタデータ) (2024-12-16T13:02:17Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。