論文の概要: Data-Driven Merton's Strategies via Policy Randomization
- arxiv url: http://arxiv.org/abs/2312.11797v2
- Date: Thu, 08 May 2025 12:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.474282
- Title: Data-Driven Merton's Strategies via Policy Randomization
- Title(参考訳): データ駆動型メルトン戦略
- Authors: Min Dai, Yuchao Dong, Yanwei Jia, Xun Yu Zhou,
- Abstract要約: 不完全市場におけるメルトンの予測ユーティリティ問題について検討する。
エージェントは、株式とファクターバリューのプロセスにのみアクセス可能な価格取付業者である。
エージェントが特定の分布のクラスに応じてポリシーランダム化を実行することができる補助的問題を提案する。
- 参考スコア(独自算出の注目度): 11.774563966512709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Merton's expected utility maximization problem in an incomplete market, characterized by a factor process in addition to the stock price process, where all the model primitives are unknown. The agent under consideration is a price taker who has access only to the stock and factor value processes and the instantaneous volatility. We propose an auxiliary problem in which the agent can invoke policy randomization according to a specific class of Gaussian distributions, and prove that the mean of its optimal Gaussian policy solves the original Merton problem. With randomized policies, we are in the realm of continuous-time reinforcement learning (RL) recently developed in Wang et al. (2020) and Jia and Zhou (2022a, 2022b, 2023), enabling us to solve the auxiliary problem in a data-driven way without having to estimate the model primitives. Specifically, we establish a policy improvement theorem based on which we design both online and offline actor-critic RL algorithms for learning Merton's strategies. A key insight from this study is that RL in general and policy randomization in particular are useful beyond the purpose for exploration -- they can be employed as a technical tool to solve a problem that cannot be otherwise solved by mere deterministic policies. At last, we carry out both simulation and empirical studies in a stochastic volatility environment to demonstrate the decisive outperformance of the devised RL algorithms in comparison to the conventional model-based, plug-in method.
- Abstract(参考訳): 不完全市場におけるMertonの予測効用最大化問題について検討し,すべてのモデルプリミティブが不明な株価プロセスに加えて因子プロセスが特徴である。
検討中のエージェントは、ストックおよびファクターバリュープロセスと即時ボラティリティのみにアクセス可能な価格取付業者である。
本稿では,エージェントがガウス分布の特定のクラスに従ってポリシーランダム化を起動できる補助的問題を提案し,その最適ガウスポリシーの平均が元のメルトン問題を解くことを証明した。
ランダム化ポリシでは,Wang et al (2020) と Jia and Zhou (2022a, 2022b, 2023) で最近開発された連続時間強化学習 (RL) の領域で,モデルプリミティブを見積もることなく,データ駆動方式で補助問題を解くことができる。
具体的には、マートンの戦略を学習するためのオンラインとオフラインのアクタークリティカルなRLアルゴリズムの両方を設計する政策改善定理を確立する。
この研究から得られた重要な洞察は、一般のRL、特にポリシーのランダム化は探索の目的を超えて有用であるということだ。
最後に,確率的ボラティリティ環境でのシミュレーションと経験的研究を行い,従来のモデルベースプラグイン法と比較して,設計したRLアルゴリズムの決定的性能を実証した。
関連論文リスト
- Generalized Bayesian deep reinforcement learning [2.469908534801392]
マルコフ依存を仮定した深部生成モデルを用いて未知環境のダイナミクスをモデル化する。
これらのモデルに対する可能性関数が存在しないため、一般化された予測順序(または述語)スコアリング規則(SR)を学習することでそれらを訓練する。
政策学習では,後部分布に関する期待値関数を最大化することにより,最適な政策を学習するためのトンプソンサンプリング(ETS)を提案する。
論文 参考訳(メタデータ) (2024-12-16T13:02:17Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。