論文の概要: Deep Reinforcement Learning for Active High Frequency Trading
- arxiv url: http://arxiv.org/abs/2101.07107v3
- Date: Sat, 19 Aug 2023 08:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:43:33.303413
- Title: Deep Reinforcement Learning for Active High Frequency Trading
- Title(参考訳): アクティブ高周波トレーディングのための深部強化学習
- Authors: Antonio Briola, Jeremy Turiel, Riccardo Marcaccioli, Alvaro Cauderan,
Tomaso Aste
- Abstract要約: 我々は、株式市場におけるアクティブな高周波取引のための、最初のエンドツーエンドのDeep Reinforcement Learning(DRL)ベースのフレームワークを紹介する。
我々はDRLエージェントを訓練し、Pximal Policy Optimizationアルゴリズムを用いてIntel Corporation株の1ユニットを取引する。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the first end-to-end Deep Reinforcement Learning (DRL) based
framework for active high frequency trading in the stock market. We train DRL
agents to trade one unit of Intel Corporation stock by employing the Proximal
Policy Optimization algorithm. The training is performed on three contiguous
months of high frequency Limit Order Book data, of which the last month
constitutes the validation data. In order to maximise the signal to noise ratio
in the training data, we compose the latter by only selecting training samples
with largest price changes. The test is then carried out on the following month
of data. Hyperparameters are tuned using the Sequential Model Based
Optimization technique. We consider three different state characterizations,
which differ in their LOB-based meta-features. Analysing the agents'
performances on test data, we argue that the agents are able to create a
dynamic representation of the underlying environment. They identify occasional
regularities present in the data and exploit them to create long-term
profitable trading strategies. Indeed, agents learn trading strategies able to
produce stable positive returns in spite of the highly stochastic and
non-stationary environment.
- Abstract(参考訳): 我々は、株式市場におけるアクティブな高周波取引のための、最初のエンドツーエンドのDeep Reinforcement Learning(DRL)ベースのフレームワークを紹介する。
我々はDRLエージェントを訓練し、Pximal Policy Optimizationアルゴリズムを用いてIntel Corporation株の1ユニットを取引する。
訓練は、前月が検証データを構成する高頻度リミット・オーダー・ブックデータの3つの連続した月に対して行われる。
トレーニングデータにおける信号対雑音比を最大化するために,最大価格変化のあるトレーニングサンプルのみを選択することで,後者を構成する。
テストは翌月のデータで実施される。
ハイパーパラメータはシーケンシャルモデルに基づく最適化技術を用いて調整される。
LOBのメタ機能が異なる3つの状態特徴について考察する。
テストデータ上でエージェントのパフォーマンスを分析することで、エージェントは基盤となる環境の動的な表現を作成できると主張している。
彼らは、データに時折存在する正規性を識別し、長期の利益をもたらす取引戦略を作成するためにそれらを利用する。
実際、エージェントは高い確率的かつ非定常な環境にもかかわらず、安定したポジティブなリターンを生み出すことができる取引戦略を学ぶ。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文 参考訳(メタデータ) (2024-08-28T10:31:50Z) - Optimizing Deep Reinforcement Learning for American Put Option Hedging [0.0]
本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。
その結果,学習エピソード数が多い場合の学習率や,学習エピソードが少ない場合の学習率の低下など,特定の組み合わせを避けることの重要性が強調された。
本稿では,シングルトレインと週間トレインのDRLエージェントが,取引コスト1%と3%でブラックスコールズデルタ法より優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-14T13:41:44Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Asynchronous Deep Double Duelling Q-Learning for Trading-Signal
Execution in Limit Order Book Markets [5.202524136984542]
我々は、エージェントを訓練し、高周波取引信号を個々のリミット注文を配置するトレーディング戦略に変換するために、深層強化学習を採用している。
ABIDESリミテッドオーダーブックシミュレータをベースとして,強化学習型オープンAIジム環境を構築した。
我々はRLエージェントが在庫管理の効果的な取引戦略を学習し、同じ信号にアクセス可能なベンチマークトレーディング戦略より優れていることを見出した。
論文 参考訳(メタデータ) (2023-01-20T17:19:18Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - A Deep Learning Framework for Predicting Digital Asset Price Movement
from Trade-by-trade Data [20.392440676633573]
本稿では,取引単位のデータから暗号通貨の価格変動を予測する枠組みを提案する。
このモデルは、1年近いトレードバイトレーダデータで高いパフォーマンスを達成するために訓練されている。
現実的な取引シミュレーション環境では、モデルによる予測は簡単に収益化できる。
論文 参考訳(メタデータ) (2020-10-11T10:42:02Z) - AAMDRL: Augmented Asset Management with Deep Reinforcement Learning [5.801876281373619]
深層強化学習がこの課題にどのように対処できるかを示す。
コントリビューションは3つある: (i) DRLにおける拡張状態とも呼ばれる文脈情報の使用, (ii) 観察と行動の間の1周期の遅延の影響, (iii) ウォークフォワード分析と呼ばれる新しい反復列車試験手法の実装。
我々の実験は、ボットのトレーディングに重点を置いているが、状況変化やノイズの多いデータとともに、シーケンシャルな環境で動作する他のボット環境に容易に翻訳できる。
論文 参考訳(メタデータ) (2020-09-30T03:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。