論文の概要: Learning the Trading Algorithm in Simulated Markets with Non-stationary
Continuum Bandits
- arxiv url: http://arxiv.org/abs/2208.02901v1
- Date: Thu, 4 Aug 2022 22:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 13:18:46.237085
- Title: Learning the Trading Algorithm in Simulated Markets with Non-stationary
Continuum Bandits
- Title(参考訳): 非定常連続帯域を持つ模擬市場における取引アルゴリズムの学習
- Authors: Bingde Liu
- Abstract要約: 非定常連続帯域(NCB)問題について考察する。
PRSHアルゴリズムは、NCBの問題を解決するための基本的なアイデアを具現化している。
ベイズ最適化による連続帯域問題の解法として, PRB というアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The basic Multi-Armed Bandits (MABs) problem is trying to maximize the
rewards obtained from bandits with different unknown probability distributions
of payoff for pulling different arms, given that only a finite number of
attempts can be made. When studying trading algorithms in the market, we are
looking at one of the most complex variants of MABs problems, namely the
Non-stationary Continuum Bandits (NCBs) problem. The Bristol Stock Exchange
(BSE) is a simple simulation of an electronic financial exchange based on a
continuous double auction running via a limit order book. The market can be
populated by automated trader agents with different trading algorithms. Within
them, the PRSH algorithm embodies some basic ideas for solving NCBs problems.
However, it faces the difficulty to adjust hyperparameters and adapt to changes
in complex market conditions. We propose a new algorithm called PRB, which
solves Continuum Bandits problem by Bayesian optimization, and solves
Non-stationary Bandits problem by a novel "bandit-over-bandit" framework. With
BSE, we use as many kinds of trader agents as possible to simulate the real
market environment under two different market dynamics. We then examine the
optimal hyperparameters of the PRSH algorithm and the PRB algorithm under
different market dynamics respectively. Finally, by having trader agents using
both algorithms trade in the market at the same time, we demonstrate that the
PRB algorithm has better performance than the PRSH algorithm under both market
dynamics. In particular, we perform rigorous hypothesis testing on all
experimental results to ensure their correctness.
- Abstract(参考訳): 基本的なマルチアームバンディット(mabs)問題は、有限個の試みしかできないので、異なるアームを引っ張るための支払いの未知の確率分布を持つバンディットから得られる報酬を最大化することである。
市場におけるトレーディングアルゴリズムの研究において,MABs問題,すなわちNon-stationary Continuum Bandits(NCBs)問題の最も複雑なバリエーションの1つについて検討している。
ブリストル証券取引所(BSE)は、リミットオーダーブックを通した継続的な二重オークションに基づく電子金融取引の単純なシミュレーションである。
マーケットには、異なる取引アルゴリズムを持つ自動トレーダエージェントが住んでいる。
その内、PRSHアルゴリズムはNCBの問題を解決するための基本的なアイデアを具現化している。
しかし、ハイパーパラメータの調整や複雑な市場環境の変化への対応が困難である。
ベイズ最適化により連続バンディット問題を解き、非定常バンディット問題を新しい「バンディットオーバーバンディット」フレームワークで解くprbと呼ばれる新しいアルゴリズムを提案する。
BSEでは、2つの異なる市場ダイナミクスの下で実際の市場環境をシミュレートするために、できるだけ多くの種類のトレーダーエージェントを使用します。
次に,PRSHアルゴリズムとPRBアルゴリズムの最適ハイパーパラメータを,それぞれ異なる市場ダイナミクスの下で検討する。
最後に,両アルゴリズムを用いたトレーダエージェントを同時に市場で取引させることにより,prbアルゴリズムが,両市場ダイナミクス下のprshアルゴリズムよりも優れた性能を示す。
特に,実験結果の正確性を確保するため,厳密な仮説テストを実施している。
関連論文リスト
- Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Stability-penalty-adaptive follow-the-regularized-leader: Sparsity,
game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。
我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文 参考訳(メタデータ) (2023-05-26T23:20:48Z) - Online Continuous Hyperparameter Optimization for Contextual Bandits [82.18146534971156]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において一貫してより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Deep Reinforcement Learning Approach for Trading Automation in The Stock
Market [0.0]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,株式市場における収益性取引を生成するモデルを提案する。
我々は、市場が課す制約を考慮して、部分的に観測されたマルコフ決定プロセス(POMDP)モデルとして取引問題を定式化する。
次に, Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムを用いて, 2.68 Sharpe Ratio を未知のデータセットに報告し, 定式化した POMDP 問題を解く。
論文 参考訳(メタデータ) (2022-07-05T11:34:29Z) - ROI Constrained Bidding via Curriculum-Guided Bayesian Reinforcement
Learning [34.82004227655201]
非定常市場におけるROI制約入札を専門とする。
部分観測可能な制約付きマルコフ決定プロセスに基づいて,非単調な制約を満たすための最初のハードバリアソリューションを提案する。
本手法は,パラメータフリーなインジケータ強化報酬関数を利用して,カリキュラムガイドベイズ強化学習フレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-10T17:30:12Z) - Stock Trading Optimization through Model-based Reinforcement Learning
with Resistance Support Relative Strength [4.322320095367326]
我々は、モデルベース強化学習(MBRL)アルゴリズムにおける行動の正規化用語として、抵抗とサポート(RS)レベルを活用する新しいアプローチを設計する。
提案手法は、新型コロナウイルス(COVID-19)のパンデミック期、金融市場が予測不可能な危機に陥った時に、大きな下落(最大減損)にも耐えられる。
論文 参考訳(メタデータ) (2022-05-30T12:36:48Z) - Learn to Match with No Regret: Reinforcement Learning in Markov Matching
Markets [151.03738099494765]
我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。
本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。
我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
論文 参考訳(メタデータ) (2022-03-07T19:51:25Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。