論文の概要: Deep Reinforcement Learning for Stock Portfolio Optimization
- arxiv url: http://arxiv.org/abs/2012.06325v1
- Date: Wed, 9 Dec 2020 10:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 10:37:29.313145
- Title: Deep Reinforcement Learning for Stock Portfolio Optimization
- Title(参考訳): ストックポートフォリオ最適化のための深層強化学習
- Authors: Le Trung Hieu
- Abstract要約: 私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stock portfolio optimization is the process of constant re-distribution of
money to a pool of various stocks. In this paper, we will formulate the problem
such that we can apply Reinforcement Learning for the task properly. To
maintain a realistic assumption about the market, we will incorporate
transaction cost and risk factor into the state as well. On top of that, we
will apply various state-of-the-art Deep Reinforcement Learning algorithms for
comparison. Since the action space is continuous, the realistic formulation
were tested under a family of state-of-the-art continuous policy gradients
algorithms: Deep Deterministic Policy Gradient (DDPG), Generalized
Deterministic Policy Gradient (GDPG) and Proximal Policy Optimization (PPO),
where the former two perform much better than the last one. Next, we will
present the end-to-end solution for the task with Minimum Variance Portfolio
Theory for stock subset selection, and Wavelet Transform for extracting
multi-frequency data pattern. Observations and hypothesis were discussed about
the results, as well as possible future research directions.1
- Abstract(参考訳): 株式ポートフォリオの最適化は、様々な株式のプールに常に資金を再分配するプロセスである。
本稿では,タスクの強化学習を適切に適用できるように,問題を定式化する。
市場に関する現実的な仮定を維持するため、我々は取引コストとリスクファクターを州にも組み込む。
それに加えて、さまざまな最先端のDeep Reinforcement Learningアルゴリズムを比較に適用する。
アクション空間は連続であるため、現実的な定式化は、Deep Deterministic Policy Gradient (DDPG)、Generalized Deterministic Policy Gradient (GDPG)、Proximal Policy Optimization (PPO)という、最先端の継続的ポリシー勾配アルゴリズムのファミリーでテストされた。
次に、ストックサブセット選択のための最小分散ポートフォリオ理論と多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
結果と今後の研究方向性について,観測と仮説を議論した。
関連論文リスト
- Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning [14.260168974085376]
本稿では多目的強化学習(MORL)について検討する。
複数の報酬関数の存在下で最適なポリシーを学ぶことに焦点を当てている。
MORLの成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。
論文 参考訳(メタデータ) (2024-07-24T17:58:49Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Deep Reinforcement Learning for Optimal Stopping with Application in
Financial Engineering [1.52292571922932]
金融工学の2つのアプリケーションにおいて、最適な停止ポリシー(オプション価格、最適オプションエクササイズ)を学ぶために、深層強化学習を採用しています。
最先端RLアルゴリズムの3つの状態によって同定された最適停止ポリシーの品質に関する総合的な実証的評価を初めて提示する。
論文 参考訳(メタデータ) (2021-05-19T01:52:04Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。