Fugu-MT 論文翻訳(概要): Learning the Trading Algorithm in Simulated Markets with Non-stationary Continuum Bandits

論文の概要: Learning the Trading Algorithm in Simulated Markets with Non-stationary Continuum Bandits

arxiv url: http://arxiv.org/abs/2208.02901v1
Date: Thu, 4 Aug 2022 22:06:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-08 13:18:46.237085
Title: Learning the Trading Algorithm in Simulated Markets with Non-stationary Continuum Bandits
Title（参考訳）: 非定常連続帯域を持つ模擬市場における取引アルゴリズムの学習
Authors: Bingde Liu
Abstract要約: 非定常連続帯域(NCB)問題について考察する。 PRSHアルゴリズムは、NCBの問題を解決するための基本的なアイデアを具現化している。ベイズ最適化による連続帯域問題の解法として, PRB というアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The basic Multi-Armed Bandits (MABs) problem is trying to maximize the rewards obtained from bandits with different unknown probability distributions of payoff for pulling different arms, given that only a finite number of attempts can be made. When studying trading algorithms in the market, we are looking at one of the most complex variants of MABs problems, namely the Non-stationary Continuum Bandits (NCBs) problem. The Bristol Stock Exchange (BSE) is a simple simulation of an electronic financial exchange based on a continuous double auction running via a limit order book. The market can be populated by automated trader agents with different trading algorithms. Within them, the PRSH algorithm embodies some basic ideas for solving NCBs problems. However, it faces the difficulty to adjust hyperparameters and adapt to changes in complex market conditions. We propose a new algorithm called PRB, which solves Continuum Bandits problem by Bayesian optimization, and solves Non-stationary Bandits problem by a novel "bandit-over-bandit" framework. With BSE, we use as many kinds of trader agents as possible to simulate the real market environment under two different market dynamics. We then examine the optimal hyperparameters of the PRSH algorithm and the PRB algorithm under different market dynamics respectively. Finally, by having trader agents using both algorithms trade in the market at the same time, we demonstrate that the PRB algorithm has better performance than the PRSH algorithm under both market dynamics. In particular, we perform rigorous hypothesis testing on all experimental results to ensure their correctness.
Abstract（参考訳）: 基本的なマルチアームバンディット(mabs)問題は、有限個の試みしかできないので、異なるアームを引っ張るための支払いの未知の確率分布を持つバンディットから得られる報酬を最大化することである。市場におけるトレーディングアルゴリズムの研究において,MABs問題,すなわちNon-stationary Continuum Bandits(NCBs)問題の最も複雑なバリエーションの1つについて検討している。ブリストル証券取引所(BSE)は、リミットオーダーブックを通した継続的な二重オークションに基づく電子金融取引の単純なシミュレーションである。マーケットには、異なる取引アルゴリズムを持つ自動トレーダエージェントが住んでいる。その内、PRSHアルゴリズムはNCBの問題を解決するための基本的なアイデアを具現化している。しかし、ハイパーパラメータの調整や複雑な市場環境の変化への対応が困難である。ベイズ最適化により連続バンディット問題を解き、非定常バンディット問題を新しい「バンディットオーバーバンディット」フレームワークで解くprbと呼ばれる新しいアルゴリズムを提案する。 BSEでは、2つの異なる市場ダイナミクスの下で実際の市場環境をシミュレートするために、できるだけ多くの種類のトレーダーエージェントを使用します。次に,PRSHアルゴリズムとPRBアルゴリズムの最適ハイパーパラメータを,それぞれ異なる市場ダイナミクスの下で検討する。最後に,両アルゴリズムを用いたトレーダエージェントを同時に市場で取引させることにより,prbアルゴリズムが,両市場ダイナミクス下のprshアルゴリズムよりも優れた性能を示す。特に,実験結果の正確性を確保するため,厳密な仮説テストを実施している。

関連論文リスト

VAE-GAN Based Price Manipulation in Coordinated Local Energy Markets [3.498661956610689]
本稿では,地域エネルギー市場(LEM)における不均一分散エネルギー資源(DER)との協調モデルを提案する。提案手法は,マルチエージェントディープ決定性ポリシー勾配(MADDPG)に基づくデータ駆動型モデルフリー強化学習手法を利用する。本研究では,変動型自動エンコーダ生成敵ネットワーク(VAE-GAN)モデルを用いた価格操作戦略について検討する。
論文参考訳（メタデータ） (2025-07-26T07:38:27Z)
FlowHFT: Imitation Learning via Flow Matching Policy for Optimal High-Frequency Trading under Diverse Market Conditions [10.253213044505431]
高周波トレーディング(英: high- frequency trading、HFT)は、市場状態を継続的に監視し、入札を行い、ミリ秒の速度で注文を求める投資戦略である。従来のHFTアプローチは、過去のデータとモデルに適合し、将来の市場状態も同様のパターンに従うと仮定する。本稿では,フローマッチングポリシーに基づく新しい模倣学習フレームワークであるFlowHFTを提案する。
論文参考訳（メタデータ） (2025-05-09T04:58:14Z)
TLOB: A Novel Transformer Model with Dual Attention for Price Trend Prediction with Limit Order Book Data [10.684577067675585]
制限順序帳(LOB)データに基づく価格トレンド予測(PTP)は、金融市場における根本的な課題である。 LOBデータにおける空間的および時間的依存関係を捉えるために,デュアルアテンション機構を用いたトランスフォーマーベースモデルTLOBを提案する。 F1スコアの6.68は、市場効率の上昇を浮き彫りにしている。
論文参考訳（メタデータ） (2025-02-12T12:41:10Z)
Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution [0.9553307596675155]
本稿では,階層強化学習フレームワークを用いた新たなトレーディング戦略である階層強化トレーサ(HRT)を紹介する。 HRTは、戦略的株式選択のためのPPO(Proximal Policy Optimization)ベースのHigh-Level Controller(HLC)をDDPG(Deep Deterministic Policy Gradient)ベースのLow-Level Controller(LLC)と統合する。
論文参考訳（メタデータ） (2024-10-19T01:29:38Z)
Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文参考訳（メタデータ） (2024-10-05T16:17:31Z)
Limit Order Book Simulation and Trade Evaluation with $K$-Nearest-Neighbor Resampling [0.6144680854063939]
我々は、リミットオーダーブック(LOB)市場をシミュレートするために、$K$-NNリサンプリングをどのように利用できるかを示す。また,我々のアルゴリズムは,清算戦略の限界オーダーのサイズをキャリブレーションする方法も示す。
論文参考訳（メタデータ） (2024-09-10T13:50:53Z)
Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文参考訳（メタデータ） (2023-07-31T13:02:36Z)
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-02-18T23:31:20Z)
Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文参考訳（メタデータ） (2022-12-12T21:37:36Z)
Deep Reinforcement Learning Approach for Trading Automation in The Stock Market [0.0]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,株式市場における収益性取引を生成するモデルを提案する。我々は、市場が課す制約を考慮して、部分的に観測されたマルコフ決定プロセス(POMDP)モデルとして取引問題を定式化する。次に, Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムを用いて, 2.68 Sharpe Ratio を未知のデータセットに報告し, 定式化した POMDP 問題を解く。
論文参考訳（メタデータ） (2022-07-05T11:34:29Z)
Learn to Match with No Regret: Reinforcement Learning in Markov Matching Markets [151.03738099494765]
我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
論文参考訳（メタデータ） (2022-03-07T19:51:25Z)
Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文参考訳（メタデータ） (2021-07-01T03:54:36Z)
Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文参考訳（メタデータ） (2021-01-28T05:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。