論文の概要: Deep Reinforcement Learning for Stock Portfolio Optimization
- arxiv url: http://arxiv.org/abs/2012.06325v1
- Date: Wed, 9 Dec 2020 10:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 10:37:29.313145
- Title: Deep Reinforcement Learning for Stock Portfolio Optimization
- Title(参考訳): ストックポートフォリオ最適化のための深層強化学習
- Authors: Le Trung Hieu
- Abstract要約: 私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stock portfolio optimization is the process of constant re-distribution of
money to a pool of various stocks. In this paper, we will formulate the problem
such that we can apply Reinforcement Learning for the task properly. To
maintain a realistic assumption about the market, we will incorporate
transaction cost and risk factor into the state as well. On top of that, we
will apply various state-of-the-art Deep Reinforcement Learning algorithms for
comparison. Since the action space is continuous, the realistic formulation
were tested under a family of state-of-the-art continuous policy gradients
algorithms: Deep Deterministic Policy Gradient (DDPG), Generalized
Deterministic Policy Gradient (GDPG) and Proximal Policy Optimization (PPO),
where the former two perform much better than the last one. Next, we will
present the end-to-end solution for the task with Minimum Variance Portfolio
Theory for stock subset selection, and Wavelet Transform for extracting
multi-frequency data pattern. Observations and hypothesis were discussed about
the results, as well as possible future research directions.1
- Abstract(参考訳): 株式ポートフォリオの最適化は、様々な株式のプールに常に資金を再分配するプロセスである。
本稿では,タスクの強化学習を適切に適用できるように,問題を定式化する。
市場に関する現実的な仮定を維持するため、我々は取引コストとリスクファクターを州にも組み込む。
それに加えて、さまざまな最先端のDeep Reinforcement Learningアルゴリズムを比較に適用する。
アクション空間は連続であるため、現実的な定式化は、Deep Deterministic Policy Gradient (DDPG)、Generalized Deterministic Policy Gradient (GDPG)、Proximal Policy Optimization (PPO)という、最先端の継続的ポリシー勾配アルゴリズムのファミリーでテストされた。
次に、ストックサブセット選択のための最小分散ポートフォリオ理論と多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
結果と今後の研究方向性について,観測と仮説を議論した。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Submodular Reinforcement Learning [77.97471858326077]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - STEEL: Singularity-aware Reinforcement Learning [6.125166470658614]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。
悲観主義の考え方を利用して、いくつかの穏やかな条件下で、提案したアルゴリズムに対する有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Deep Reinforcement Learning for Optimal Stopping with Application in
Financial Engineering [1.52292571922932]
金融工学の2つのアプリケーションにおいて、最適な停止ポリシー(オプション価格、最適オプションエクササイズ)を学ぶために、深層強化学習を採用しています。
最先端RLアルゴリズムの3つの状態によって同定された最適停止ポリシーの品質に関する総合的な実証的評価を初めて提示する。
論文 参考訳(メタデータ) (2021-05-19T01:52:04Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。