論文の概要: Nonstationary Continuum-Armed Bandit Strategies for Automated Trading in
a Simulated Financial Market
- arxiv url: http://arxiv.org/abs/2208.02901v3
- Date: Mon, 26 Jun 2023 01:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 00:56:55.802765
- Title: Nonstationary Continuum-Armed Bandit Strategies for Automated Trading in
a Simulated Financial Market
- Title(参考訳): 模擬金融市場における自動取引のための非定常連続強制帯域戦略
- Authors: Bingde Liu, John Cartlidge
- Abstract要約: 本稿では,ベイズ最適化と帯域分割フレームワークを用いて戦略パラメータを動的に調整する新しい取引アルゴリズムPRBOを提案する。
我々は,山登りを通じて戦略パラメータを適応させるリファレンストレーディング戦略であるPRBOとPRSHを比較した。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We approach the problem of designing an automated trading strategy that can
consistently profit by adapting to changing market conditions. This challenge
can be framed as a Nonstationary Continuum-Armed Bandit (NCAB) problem. To
solve the NCAB problem, we propose PRBO, a novel trading algorithm that uses
Bayesian optimization and a ``bandit-over-bandit'' framework to dynamically
adjust strategy parameters in response to market conditions. We use Bristol
Stock Exchange (BSE) to simulate financial markets containing heterogeneous
populations of automated trading agents and compare PRBO with PRSH, a reference
trading strategy that adapts strategy parameters through stochastic
hill-climbing. Results show that PRBO generates significantly more profit than
PRSH, despite having fewer hyperparameters to tune. The code for PRBO and
performing experiments is available online open-source
(https://github.com/HarmoniaLeo/PRZI-Bayesian-Optimisation).
- Abstract(参考訳): 我々は、市場状況の変化に適応して一貫して利益を得ることのできる自動取引戦略を設計する問題にアプローチする。
この課題は、Nonstationary Continuum-Armed Bandit (NCAB) 問題とみなすことができる。
NCAB問題を解決するために,ベイズ最適化と 'bandit-over-bandit' フレームワークを用いた新しい取引アルゴリズムであるPRBOを提案し,市場条件に応じて戦略パラメータを動的に調整する。
我々は、ブリストル証券取引所(BSE)を用いて、自動取引業者の不均一な人口を含む金融市場をシミュレートし、PRBOとPRSHを比較した。
その結果, PRBOは調整するハイパーパラメータが少ないにもかかわらず, PRSHよりも著しく利益が高いことがわかった。
PRBOと実験のコードはオンラインで公開されている(https://github.com/HarmoniaLeo/PRZI-Bayesian-Optimisation)。
関連論文リスト
- Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。
HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文 参考訳(メタデータ) (2024-10-19T01:29:38Z) - Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - Limit Order Book Simulation and Trade Evaluation with $K$-Nearest-Neighbor Resampling [0.6144680854063939]
我々は、リミットオーダーブック(LOB)市場をシミュレートするために、$K$-NNリサンプリングをどのように利用できるかを示す。
また,我々のアルゴリズムは,清算戦略の限界オーダーのサイズをキャリブレーションする方法も示す。
論文 参考訳(メタデータ) (2024-09-10T13:50:53Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Deep Reinforcement Learning Approach for Trading Automation in The Stock
Market [0.0]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,株式市場における収益性取引を生成するモデルを提案する。
我々は、市場が課す制約を考慮して、部分的に観測されたマルコフ決定プロセス(POMDP)モデルとして取引問題を定式化する。
次に, Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムを用いて, 2.68 Sharpe Ratio を未知のデータセットに報告し, 定式化した POMDP 問題を解く。
論文 参考訳(メタデータ) (2022-07-05T11:34:29Z) - Learn to Match with No Regret: Reinforcement Learning in Markov Matching
Markets [151.03738099494765]
我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。
本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。
我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
論文 参考訳(メタデータ) (2022-03-07T19:51:25Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。