Fugu-MT 論文翻訳(概要): Commodities Trading through Deep Policy Gradient Methods

論文の概要: Commodities Trading through Deep Policy Gradient Methods

arxiv url: http://arxiv.org/abs/2309.00630v1
Date: Thu, 10 Aug 2023 17:21:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-10 03:56:38.593955
Title: Commodities Trading through Deep Policy Gradient Methods
Title（参考訳）: 深い政策勾配手法による商品取引
Authors: Jonas Hanetho
Abstract要約: 商品取引問題を連続的な離散時間力学系として定式化する。アクターベースとアクタークリティカルベースの2つのポリシーアルゴリズムが導入された。先月末の天然ガス先物試験では、DRLモデルのシャープ比が買いと持ち株ベースラインと比較して83%高くなることが示されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Algorithmic trading has gained attention due to its potential for generating superior returns. This paper investigates the effectiveness of deep reinforcement learning (DRL) methods in algorithmic commodities trading. It formulates the commodities trading problem as a continuous, discrete-time stochastic dynamical system. The proposed system employs a novel time-discretization scheme that adapts to market volatility, enhancing the statistical properties of subsampled financial time series. To optimize transaction-cost- and risk-sensitive trading agents, two policy gradient algorithms, namely actor-based and actor-critic-based approaches, are introduced. These agents utilize CNNs and LSTMs as parametric function approximators to map historical price observations to market positions.Backtesting on front-month natural gas futures demonstrates that DRL models increase the Sharpe ratio by $83\%$ compared to the buy-and-hold baseline. Additionally, the risk profile of the agents can be customized through a hyperparameter that regulates risk sensitivity in the reward function during the optimization process. The actor-based models outperform the actor-critic-based models, while the CNN-based models show a slight performance advantage over the LSTM-based models.
Abstract（参考訳）: アルゴリズム取引は、優れたリターンを生み出す可能性から注目を集めている。本稿では,アルゴリズム商品取引における深層強化学習(DRL)手法の有効性について検討する。商品取引問題を連続的離散時間確率力学系として定式化する。提案システムは,市場ボラティリティに適応し,サブサンプルファイナンス時系列の統計特性を向上する新たな時間分散方式を採用している。取引コストとリスクに敏感な取引エージェントを最適化するために、アクターベースとアクタークリティカルベースの2つのポリシー勾配アルゴリズムを導入した。これらのエージェントは、CNNとLSTMをパラメトリック関数近似器として利用し、過去の価格観測を市場ポジションにマッピングする。さらに、エージェントのリスクプロファイルは、最適化プロセス中に報奨機能のリスク感度を調節するハイパーパラメータを通じてカスタマイズすることができる。アクターベースのモデルはアクター批評家ベースのモデルより優れており、CNNベースのモデルはLSTMベースのモデルよりも若干パフォーマンス上の優位性を示している。

関連論文リスト

A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks [0.26249027950824505]
本研究では,拡張長短期記憶(xLSTM)ネットワークと深部強化学習(DRL)アプローチを併用して,自動株式取引に利用することを検討した。提案手法はアクターと批評家の両方でxLSTMネットワークを利用し,時系列データと動的市場環境の効果的処理を可能にする。
論文参考訳（メタデータ） (2025-03-12T10:56:03Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
A New Way: Kronecker-Factored Approximate Curvature Deep Hedging and its Benefits [0.0]
本稿では, Kronecker-Factored Approximate Curvature (K-FAC) 最適化の新たな統合により, ディープヘッジフレームワークの計算効率を向上する。提案アーキテクチャは,K-FACの2次最適化とLong Short-Term Memory (LSTM)ネットワークを結合する。
論文参考訳（メタデータ） (2024-11-22T15:19:40Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
AI-Powered Energy Algorithmic Trading: Integrating Hidden Markov Models with Neural Networks [0.0]
本研究では,HMM(Hidden Markov Models)とニューラルネットワークを組み合わせた新たなアプローチを提案する。新型コロナウイルスの期間(2019-2022年)に、この二重モデルアプローチはシャープ比0.77で83%のリターンを達成した。
論文参考訳（メタデータ） (2024-07-29T10:26:52Z)
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文参考訳（メタデータ） (2024-06-05T03:41:37Z)
RVRAE: A Dynamic Factor Model Based on Variational Recurrent Autoencoder for Stock Returns Prediction [5.281288833470249]
RVRAEは、市場データの時間的依存関係とノイズに対処する確率論的アプローチである。揮発性株式市場のリスクモデリングに長けており、潜在空間分布からのばらつきを推定し、リターンを予測する。
論文参考訳（メタデータ） (2024-03-04T21:48:32Z)
Deep Policy Gradient Methods in Commodity Markets [0.0]
トレーダーは流動性を提供し、ボラティリティを下げることで市場の安定化に重要な役割を果たしている。本論文は,商品取引における深層強化学習手法の有効性について考察する。
論文参考訳（メタデータ） (2023-06-14T11:50:23Z)
DeepVol: Volatility Forecasting from High-Frequency Data with Dilated Causal Convolutions [53.37679435230207]
本稿では,Dilated Causal Convolutionsに基づくDeepVolモデルを提案する。実験結果から,提案手法は高頻度データからグローバルな特徴を効果的に学習できることが示唆された。
論文参考訳（メタデータ） (2022-09-23T16:13:47Z)
Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文参考訳（メタデータ） (2022-03-07T18:59:54Z)
GA-MSSR: Genetic Algorithm Maximizing Sharpe and Sterling Ratio Method for RoboTrading [0.4568777157687961]
外国為替は世界最大の金融市場である。ほとんどの文献は、歴史的価格情報と技術指標を訓練に用いた。この問題に対処するため,我々は,技術指標と取引規則から派生した取引規則の特徴を設計した。
論文参考訳（メタデータ） (2020-08-16T05:33:35Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。