論文の概要: A Modular Framework for Reinforcement Learning Optimal Execution
- arxiv url: http://arxiv.org/abs/2208.06244v1
- Date: Thu, 11 Aug 2022 09:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:47:36.920821
- Title: A Modular Framework for Reinforcement Learning Optimal Execution
- Title(参考訳): 強化学習最適実行のためのモジュールフレームワーク
- Authors: Fernando de Meer Pardo, Christoph Auth and Florin Dascalu
- Abstract要約: 我々は、最適貿易実行問題への強化学習の適用のためのモジュラーフレームワークを開発する。
このフレームワークは、異なるシミュレーション設定の実装を容易にするために、柔軟性を念頭に設計されている。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we develop a modular framework for the application of
Reinforcement Learning to the problem of Optimal Trade Execution. The framework
is designed with flexibility in mind, in order to ease the implementation of
different simulation setups. Rather than focusing on agents and optimization
methods, we focus on the environment and break down the necessary requirements
to simulate an Optimal Trade Execution under a Reinforcement Learning framework
such as data pre-processing, construction of observations, action processing,
child order execution, simulation of benchmarks, reward calculations etc. We
give examples of each component, explore the difficulties their individual
implementations \& the interactions between them entail, and discuss the
different phenomena that each component induces in the simulation, highlighting
the divergences between the simulation and the behavior of a real market. We
showcase our modular implementation through a setup that, following a
Time-Weighted Average Price (TWAP) order submission schedule, allows the agent
to exclusively place limit orders, simulates their execution via iterating over
snapshots of the Limit Order Book (LOB), and calculates rewards as the \$
improvement over the price achieved by a TWAP benchmark algorithm following the
same schedule. We also develop evaluation procedures that incorporate iterative
re-training and evaluation of a given agent over intervals of a training
horizon, mimicking how an agent may behave when being continuously retrained as
new market data becomes available and emulating the monitoring practices that
algorithm providers are bound to perform under current regulatory frameworks.
- Abstract(参考訳): 本稿では,強化学習を最適取引実行問題に適用するためのモジュラーフレームワークを開発した。
このフレームワークは、異なるシミュレーション設定の実装を容易にするために、柔軟性を念頭に設計されている。
エージェントや最適化手法に注目するのではなく,データ前処理,観察の構築,アクション処理,子命令実行,ベンチマークのシミュレーション,報酬計算など,強化学習フレームワークの下で最適な取引実行をシミュレートするために必要な要件を,環境に集中して分解する。
本稿では,各コンポーネントの例を示し,それぞれの実装の困難さを考察するとともに,シミュレーションにおいて各コンポーネントが引き起こす異なる現象について考察し,シミュレーションと実際の市場の振る舞いの相違を強調する。
我々は、時間重み付き平均価格(TWAP)の注文スケジュールに従って、エージェントがリミットオーダーを独占的に配置し、リミットオーダーブック(LOB)のスナップショットを反復して実行をシミュレートし、同じスケジュールに従ってTWAPベンチマークアルゴリズムによって達成された価格に対する$$の改善として、報酬を計算できるような設定でモジュール実装を紹介します。
また、新たな市場データが利用可能になると、エージェントが継続的に再トレーニングされるときにどのように振る舞うかを模倣し、現在の規制枠組みの下でアルゴリズムプロバイダが実行しなければならないモニタリングプラクティスを模倣する、所定のエージェントの再トレーニングと評価を反復的に組み込んだ評価手順を開発する。
関連論文リスト
- Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Limit Order Book Simulation and Trade Evaluation with $K$-Nearest-Neighbor Resampling [0.6144680854063939]
我々は、リミットオーダーブック(LOB)市場をシミュレートするために、$K$-NNリサンプリングをどのように利用できるかを示す。
また,我々のアルゴリズムは,清算戦略の限界オーダーのサイズをキャリブレーションする方法も示す。
論文 参考訳(メタデータ) (2024-09-10T13:50:53Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Optimal simulation-based Bayesian decisions [0.0]
難解な確率下での最適ベイズ決定の効率的な計算のための枠組みを提案する。
パラメータと行動空間のどの位置をシミュレートするかを選択するための能動的学習手法を開発した。
結果として生じるフレームワークは極めて効率的なシミュレーションであり、一般的に、関連する後部推論タスクのみよりもモデル呼び出しを少なくする。
論文 参考訳(メタデータ) (2023-11-09T20:59:52Z) - Towards Generalizable Reinforcement Learning for Trade Execution [25.199192981742744]
市場データからよりスマートなポリシーを学ぶために、貿易実行の最適化に強化学習(RL)が適用されている。
既存のRLメソッドの多くは、実際のデプロイを妨げている、かなりの過度なオーバーフィッティングを示す。
本稿では,事前知識の活用やエンドツーエンドの手法により,コンテキストのコンパクトな表現を学習し,過度に適合する問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-05-12T02:41:11Z) - Streamlined Framework for Agile Forecasting Model Development towards
Efficient Inventory Management [2.0625936401496237]
本稿では,開発プロセスのコアコンポーネント間の接続を合理化して予測モデルを構築するためのフレームワークを提案する。
提案したフレームワークは、新しいデータセットの迅速かつ堅牢な統合、異なるアルゴリズムの実験、最良のモデルの選択を可能にする。
論文 参考訳(メタデータ) (2023-04-13T08:52:32Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z) - Adaptive Batching for Gaussian Process Surrogates with Application in
Noisy Level Set Estimation [0.0]
実験プロセスのメタモデルに適応的な複製設計を開発する。
我々は、マルチレベル適応(MLB)、段階的不確実性低減(ABSUR)、段階的アロケーション(ADSA)、段階的アロケーション(DDSA)の4つの新しいスキームを使用している。
論文 参考訳(メタデータ) (2020-03-19T05:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。