論文の概要: Evaluation of Reinforcement Learning Techniques for Trading on a Diverse
Portfolio
- arxiv url: http://arxiv.org/abs/2309.03202v1
- Date: Wed, 28 Jun 2023 22:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 08:54:54.569382
- Title: Evaluation of Reinforcement Learning Techniques for Trading on a Diverse
Portfolio
- Title(参考訳): 多様なポートフォリオにおけるトレーディングのための強化学習手法の評価
- Authors: Ishan S. Khare, Tarun K. Martheswaran, Akshana Dassanaike-Perera,
Jonah B. Ezekiel
- Abstract要約: 本研究は,S&P500指数上での強化学習の実現可能性に関する重要な研究課題に答えようとしている。
The on-policy Technique of Value Iteration (VI) and State-action-Reward-State-action (SARSA) is implemented with the off-policy Technique of Q-Learning。
これらのモデルは、2000年から2023年までの数年間の株式市場データからなるデータセット上で、トレーニングされ、テストされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work seeks to answer key research questions regarding the viability of
reinforcement learning over the S&P 500 index. The on-policy techniques of
Value Iteration (VI) and State-action-reward-state-action (SARSA) are
implemented along with the off-policy technique of Q-Learning. The models are
trained and tested on a dataset comprising multiple years of stock market data
from 2000-2023. The analysis presents the results and findings from training
and testing the models using two different time periods: one including the
COVID-19 pandemic years and one excluding them. The results indicate that
including market data from the COVID-19 period in the training dataset leads to
superior performance compared to the baseline strategies. During testing, the
on-policy approaches (VI and SARSA) outperform Q-learning, highlighting the
influence of bias-variance tradeoff and the generalization capabilities of
simpler policies. However, it is noted that the performance of Q-learning may
vary depending on the stability of future market conditions. Future work is
suggested, including experiments with updated Q-learning policies during
testing and trading diverse individual stocks. Additionally, the exploration of
alternative economic indicators for training the models is proposed.
- Abstract(参考訳): 本研究は,S&P500指数上での強化学習の実現可能性に関する重要な研究課題に答えようとしている。
価値反復(vi)のオンポリシー手法と、q-learningのオフポリシー手法とともに、状態-アクション-reward-state-action(sarsa)が実装されている。
モデルは2000年から2023年までの数年間の株式市場データからなるデータセット上でトレーニングされ、テストされる。
この分析は、covid-19パンデミックの年数を含む2つの異なる期間を使ってモデルをトレーニングし、テストした結果と結果を提示する。
その結果、トレーニングデータセットにおけるCOVID-19期間の市場データを含めると、ベースライン戦略よりも優れたパフォーマンスが得られることが示唆された。
テスト中、オンラインアプローチ(VIとSARSA)はQラーニングを上回っ、バイアス分散トレードオフの影響とより単純なポリシーの一般化能力を強調した。
しかし,Q-ラーニングのパフォーマンスは,今後の市場環境の安定性によって異なる可能性がある。
今後の取り組みとして、さまざまな株式の試験および取引におけるqラーニングポリシーの更新を含む実験が提案されている。
また,モデル訓練のための代替経済指標の探索も提案している。
関連論文リスト
- Leveraging Fundamental Analysis for Stock Trend Prediction for Profit [0.0]
本稿では,機械学習モデル,Long Short-Term Memory (LSTM), 1次元畳み込みニューラルネットワーク (1D CNN) およびロジスティック回帰 (LR) を用いて,基本解析に基づく株価トレンドの予測を行う。
我々は、2つの予測タスク、すなわち年次株価差(ASPD)と現在の株価と本質的価値(CSPDIV)の差を定式化するために、主要な金融比率とディスクキャッシュフロー(DCF)モデルを採用する。
この結果、LRモデルはCNNおよびLSTMモデルより優れており、ASPDの平均テスト精度は74.66%、DCSPIVは72.85%であることがわかった。
論文 参考訳(メタデータ) (2024-10-04T20:36:19Z) - Optimizing Deep Reinforcement Learning for American Put Option Hedging [0.0]
本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。
その結果,学習エピソード数が多い場合の学習率や,学習エピソードが少ない場合の学習率の低下など,特定の組み合わせを避けることの重要性が強調された。
本稿では,シングルトレインと週間トレインのDRLエージェントが,取引コスト1%と3%でブラックスコールズデルタ法より優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-14T13:41:44Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Applications of Reinforcement Learning in Finance -- Trading with a
Double Deep Q-Network [0.0]
本稿では,単一資産,すなわちE-mini S&P 500連続先物契約を取引するためのDouble Deep Q-Networkアルゴリズムを提案する。
複数の拡張を備えた環境の基盤として、実証済みのセットアップを使用します。
当社のトレーディングエージェントの特徴は、常に商品などの追加資産を含むように拡張され、結果として4つのモデルが生まれています。
論文 参考訳(メタデータ) (2022-06-28T19:46:16Z) - Reinforcement Learning with Expert Trajectory For Quantitative Trading [11.460285913081346]
価格予測問題をマルコフ決定プロセス(MDP)としてモデル化し、エキスパート軌道による強化学習により最適化します。
我々は、MDPの状態を記述するための既存の手法において、価格、ボリューム、およびいくつかの技術的要因の代わりに、100以上の短期的アルファ因子を用いる。
IF(CSI 300)およびIC(CSI 500)を含む中国の株価指数先物に関する実験的評価
論文 参考訳(メタデータ) (2021-05-09T05:49:21Z) - Adaptive learning for financial markets mixing model-based and
model-free RL for volatility targeting [0.0]
モデルフリー強化学習は安定した環境において有意義な成果を上げてきたが、今日でも金融市場のような環境の変化に問題がある。
モデルフリーな深層強化学習により,様々なモデルベースアプローチを選択することで,この2つの手法のベストを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-04-19T19:20:22Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。