論文の概要: Commodities Trading through Deep Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2309.00630v1
- Date: Thu, 10 Aug 2023 17:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-10 03:56:38.593955
- Title: Commodities Trading through Deep Policy Gradient Methods
- Title(参考訳): 深い政策勾配手法による商品取引
- Authors: Jonas Hanetho
- Abstract要約: 商品取引問題を連続的な離散時間力学系として定式化する。
アクターベースとアクタークリティカルベースの2つのポリシーアルゴリズムが導入された。
先月末の天然ガス先物試験では、DRLモデルのシャープ比が買いと持ち株ベースラインと比較して83%高くなることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithmic trading has gained attention due to its potential for generating
superior returns. This paper investigates the effectiveness of deep
reinforcement learning (DRL) methods in algorithmic commodities trading. It
formulates the commodities trading problem as a continuous, discrete-time
stochastic dynamical system. The proposed system employs a novel
time-discretization scheme that adapts to market volatility, enhancing the
statistical properties of subsampled financial time series. To optimize
transaction-cost- and risk-sensitive trading agents, two policy gradient
algorithms, namely actor-based and actor-critic-based approaches, are
introduced. These agents utilize CNNs and LSTMs as parametric function
approximators to map historical price observations to market
positions.Backtesting on front-month natural gas futures demonstrates that DRL
models increase the Sharpe ratio by $83\%$ compared to the buy-and-hold
baseline. Additionally, the risk profile of the agents can be customized
through a hyperparameter that regulates risk sensitivity in the reward function
during the optimization process. The actor-based models outperform the
actor-critic-based models, while the CNN-based models show a slight performance
advantage over the LSTM-based models.
- Abstract(参考訳): アルゴリズム取引は、優れたリターンを生み出す可能性から注目を集めている。
本稿では,アルゴリズム商品取引における深層強化学習(DRL)手法の有効性について検討する。
商品取引問題を連続的離散時間確率力学系として定式化する。
提案システムは,市場ボラティリティに適応し,サブサンプルファイナンス時系列の統計特性を向上する新たな時間分散方式を採用している。
取引コストとリスクに敏感な取引エージェントを最適化するために、アクターベースとアクタークリティカルベースの2つのポリシー勾配アルゴリズムを導入した。
これらのエージェントは、CNNとLSTMをパラメトリック関数近似器として利用し、過去の価格観測を市場ポジションにマッピングする。
さらに、エージェントのリスクプロファイルは、最適化プロセス中に報奨機能のリスク感度を調節するハイパーパラメータを通じてカスタマイズすることができる。
アクターベースのモデルはアクター批評家ベースのモデルより優れており、CNNベースのモデルはLSTMベースのモデルよりも若干パフォーマンス上の優位性を示している。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - An Evaluation of Deep Learning Models for Stock Market Trend Prediction [0.3277163122167433]
本研究では,S&P 500指数とブラジルETF EWZの日時閉値を用いた短期トレンド予測のための先進的なディープラーニングモデルの有効性について検討した。
時系列予測に最適化されたxLSTM適応であるxLSTM-TSモデルを導入する。
テストされたモデルの中で、xLSTM-TSは一貫して他のモデルよりも優れており、例えば、テスト精度72.82%、F1スコア73.16%をEWZの日次データセットで達成している。
論文 参考訳(メタデータ) (2024-08-22T13:58:55Z) - AI-Powered Energy Algorithmic Trading: Integrating Hidden Markov Models with Neural Networks [0.0]
本研究では,HMM(Hidden Markov Models)とニューラルネットワークを組み合わせた新たなアプローチを提案する。
新型コロナウイルスの期間(2019-2022年)に、この二重モデルアプローチはシャープ比0.77で83%のリターンを達成した。
論文 参考訳(メタデータ) (2024-07-29T10:26:52Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - RVRAE: A Dynamic Factor Model Based on Variational Recurrent Autoencoder
for Stock Returns Prediction [5.281288833470249]
RVRAEは、市場データの時間的依存関係とノイズに対処する確率論的アプローチである。
揮発性株式市場のリスクモデリングに長けており、潜在空間分布からのばらつきを推定し、リターンを予測する。
論文 参考訳(メタデータ) (2024-03-04T21:48:32Z) - Deep Policy Gradient Methods in Commodity Markets [0.0]
トレーダーは流動性を提供し、ボラティリティを下げることで市場の安定化に重要な役割を果たしている。
本論文は,商品取引における深層強化学習手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-06-14T11:50:23Z) - DeepVol: Volatility Forecasting from High-Frequency Data with Dilated Causal Convolutions [53.37679435230207]
本稿では,Dilated Causal Convolutionsに基づくDeepVolモデルを提案する。
実験結果から,提案手法は高頻度データからグローバルな特徴を効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2022-09-23T16:13:47Z) - Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics
in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。
最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。
予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-07T18:59:54Z) - GA-MSSR: Genetic Algorithm Maximizing Sharpe and Sterling Ratio Method
for RoboTrading [0.4568777157687961]
外国為替は世界最大の金融市場である。
ほとんどの文献は、歴史的価格情報と技術指標を訓練に用いた。
この問題に対処するため,我々は,技術指標と取引規則から派生した取引規則の特徴を設計した。
論文 参考訳(メタデータ) (2020-08-16T05:33:35Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。