Fugu-MT 論文翻訳(概要): Deep Reinforcement Learning for Stock Portfolio Optimization

論文の概要: Deep Reinforcement Learning for Stock Portfolio Optimization

arxiv url: http://arxiv.org/abs/2012.06325v1
Date: Wed, 9 Dec 2020 10:19:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-16 10:37:29.313145
Title: Deep Reinforcement Learning for Stock Portfolio Optimization
Title（参考訳）: ストックポートフォリオ最適化のための深層強化学習
Authors: Le Trung Hieu
Abstract要約: 私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Stock portfolio optimization is the process of constant re-distribution of money to a pool of various stocks. In this paper, we will formulate the problem such that we can apply Reinforcement Learning for the task properly. To maintain a realistic assumption about the market, we will incorporate transaction cost and risk factor into the state as well. On top of that, we will apply various state-of-the-art Deep Reinforcement Learning algorithms for comparison. Since the action space is continuous, the realistic formulation were tested under a family of state-of-the-art continuous policy gradients algorithms: Deep Deterministic Policy Gradient (DDPG), Generalized Deterministic Policy Gradient (GDPG) and Proximal Policy Optimization (PPO), where the former two perform much better than the last one. Next, we will present the end-to-end solution for the task with Minimum Variance Portfolio Theory for stock subset selection, and Wavelet Transform for extracting multi-frequency data pattern. Observations and hypothesis were discussed about the results, as well as possible future research directions.1
Abstract（参考訳）: 株式ポートフォリオの最適化は、様々な株式のプールに常に資金を再分配するプロセスである。本稿では,タスクの強化学習を適切に適用できるように,問題を定式化する。市場に関する現実的な仮定を維持するため、我々は取引コストとリスクファクターを州にも組み込む。それに加えて、さまざまな最先端のDeep Reinforcement Learningアルゴリズムを比較に適用する。アクション空間は連続であるため、現実的な定式化は、Deep Deterministic Policy Gradient (DDPG)、Generalized Deterministic Policy Gradient (GDPG)、Proximal Policy Optimization (PPO)という、最先端の継続的ポリシー勾配アルゴリズムのファミリーでテストされた。次に、ストックサブセット選択のための最小分散ポートフォリオ理論と多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。結果と今後の研究方向性について,観測と仮説を議論した。

関連論文リスト

Deep Reinforcement Learning Algorithms for Option Hedging [0.20482269513546458]
動的ヘッジの文脈における8つのDeep Reinforcement Learning (DRL)アルゴリズムの性能を比較した。 MCPGはブラック・スコイルズ・デルタ・ヘッジ・ベースラインを計算予算で上回る唯一のアルゴリズムである。
論文参考訳（メタデータ） (2025-04-07T21:32:14Z)
Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T19:53:56Z)
Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning [14.260168974085376]
本稿では多目的強化学習(MORL)について検討する。複数の報酬関数の存在下で最適なポリシーを学ぶことに焦点を当てている。 MORLの成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。
論文参考訳（メタデータ） (2024-07-24T17:58:49Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文参考訳（メタデータ） (2023-05-15T17:55:24Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文参考訳（メタデータ） (2022-08-17T18:49:53Z)
A Reinforcement Learning Approach to the Stochastic Cutting Stock Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文参考訳（メタデータ） (2021-09-20T14:47:54Z)
Deep Reinforcement Learning for Optimal Stopping with Application in Financial Engineering [1.52292571922932]
金融工学の2つのアプリケーションにおいて、最適な停止ポリシー(オプション価格、最適オプションエクササイズ)を学ぶために、深層強化学習を採用しています。最先端RLアルゴリズムの3つの状態によって同定された最適停止ポリシーの品質に関する総合的な実証的評価を初めて提示する。
論文参考訳（メタデータ） (2021-05-19T01:52:04Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)
Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。 OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文参考訳（メタデータ） (2019-12-12T08:40:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。