論文の概要: Learning the Trading Algorithm in Simulated Markets with Non-stationary
Continuum Bandits
- arxiv url: http://arxiv.org/abs/2208.02901v1
- Date: Thu, 4 Aug 2022 22:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 13:18:46.237085
- Title: Learning the Trading Algorithm in Simulated Markets with Non-stationary
Continuum Bandits
- Title(参考訳): 非定常連続帯域を持つ模擬市場における取引アルゴリズムの学習
- Authors: Bingde Liu
- Abstract要約: 非定常連続帯域(NCB)問題について考察する。
PRSHアルゴリズムは、NCBの問題を解決するための基本的なアイデアを具現化している。
ベイズ最適化による連続帯域問題の解法として, PRB というアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The basic Multi-Armed Bandits (MABs) problem is trying to maximize the
rewards obtained from bandits with different unknown probability distributions
of payoff for pulling different arms, given that only a finite number of
attempts can be made. When studying trading algorithms in the market, we are
looking at one of the most complex variants of MABs problems, namely the
Non-stationary Continuum Bandits (NCBs) problem. The Bristol Stock Exchange
(BSE) is a simple simulation of an electronic financial exchange based on a
continuous double auction running via a limit order book. The market can be
populated by automated trader agents with different trading algorithms. Within
them, the PRSH algorithm embodies some basic ideas for solving NCBs problems.
However, it faces the difficulty to adjust hyperparameters and adapt to changes
in complex market conditions. We propose a new algorithm called PRB, which
solves Continuum Bandits problem by Bayesian optimization, and solves
Non-stationary Bandits problem by a novel "bandit-over-bandit" framework. With
BSE, we use as many kinds of trader agents as possible to simulate the real
market environment under two different market dynamics. We then examine the
optimal hyperparameters of the PRSH algorithm and the PRB algorithm under
different market dynamics respectively. Finally, by having trader agents using
both algorithms trade in the market at the same time, we demonstrate that the
PRB algorithm has better performance than the PRSH algorithm under both market
dynamics. In particular, we perform rigorous hypothesis testing on all
experimental results to ensure their correctness.
- Abstract(参考訳): 基本的なマルチアームバンディット(mabs)問題は、有限個の試みしかできないので、異なるアームを引っ張るための支払いの未知の確率分布を持つバンディットから得られる報酬を最大化することである。
市場におけるトレーディングアルゴリズムの研究において,MABs問題,すなわちNon-stationary Continuum Bandits(NCBs)問題の最も複雑なバリエーションの1つについて検討している。
ブリストル証券取引所(BSE)は、リミットオーダーブックを通した継続的な二重オークションに基づく電子金融取引の単純なシミュレーションである。
マーケットには、異なる取引アルゴリズムを持つ自動トレーダエージェントが住んでいる。
その内、PRSHアルゴリズムはNCBの問題を解決するための基本的なアイデアを具現化している。
しかし、ハイパーパラメータの調整や複雑な市場環境の変化への対応が困難である。
ベイズ最適化により連続バンディット問題を解き、非定常バンディット問題を新しい「バンディットオーバーバンディット」フレームワークで解くprbと呼ばれる新しいアルゴリズムを提案する。
BSEでは、2つの異なる市場ダイナミクスの下で実際の市場環境をシミュレートするために、できるだけ多くの種類のトレーダーエージェントを使用します。
次に,PRSHアルゴリズムとPRBアルゴリズムの最適ハイパーパラメータを,それぞれ異なる市場ダイナミクスの下で検討する。
最後に,両アルゴリズムを用いたトレーダエージェントを同時に市場で取引させることにより,prbアルゴリズムが,両市場ダイナミクス下のprshアルゴリズムよりも優れた性能を示す。
特に,実験結果の正確性を確保するため,厳密な仮説テストを実施している。
関連論文リスト
- Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。
HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文 参考訳(メタデータ) (2024-10-19T01:29:38Z) - Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - Limit Order Book Simulation and Trade Evaluation with $K$-Nearest-Neighbor Resampling [0.6144680854063939]
我々は、リミットオーダーブック(LOB)市場をシミュレートするために、$K$-NNリサンプリングをどのように利用できるかを示す。
また,我々のアルゴリズムは,清算戦略の限界オーダーのサイズをキャリブレーションする方法も示す。
論文 参考訳(メタデータ) (2024-09-10T13:50:53Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Deep Reinforcement Learning Approach for Trading Automation in The Stock
Market [0.0]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,株式市場における収益性取引を生成するモデルを提案する。
我々は、市場が課す制約を考慮して、部分的に観測されたマルコフ決定プロセス(POMDP)モデルとして取引問題を定式化する。
次に, Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムを用いて, 2.68 Sharpe Ratio を未知のデータセットに報告し, 定式化した POMDP 問題を解く。
論文 参考訳(メタデータ) (2022-07-05T11:34:29Z) - Learn to Match with No Regret: Reinforcement Learning in Markov Matching
Markets [151.03738099494765]
我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。
本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。
我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
論文 参考訳(メタデータ) (2022-03-07T19:51:25Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。