論文の概要: Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution
- arxiv url: http://arxiv.org/abs/2511.15262v1
- Date: Wed, 19 Nov 2025 09:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.727058
- Title: Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution
- Title(参考訳): 待ち行列モデルにおける強化学習 : 最適実行への応用
- Authors: Tomas Espana, Yadh Hafsi, Fabrizio Lillo, Edoardo Vittori,
- Abstract要約: メタオーダーの最適実行における強化学習の利用について検討する。
目的は、実装不足と市場への影響を最小限に抑えながら、段階的に大規模な注文を実行することである。
我々はキュー・リフレクティブ・モデルを用いて現実的でトラクタブルなリミットオーダーブックシミュレーションを生成する。
- 参考スコア(独自算出の注目度): 0.35932002706017546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the use of Reinforcement Learning for the optimal execution of meta-orders, where the objective is to execute incrementally large orders while minimizing implementation shortfall and market impact over an extended period of time. Departing from traditional parametric approaches to price dynamics and impact modeling, we adopt a model-free, data-driven framework. Since policy optimization requires counterfactual feedback that historical data cannot provide, we employ the Queue-Reactive Model to generate realistic and tractable limit order book simulations that encompass transient price impact, and nonlinear and dynamic order flow responses. Methodologically, we train a Double Deep Q-Network agent on a state space comprising time, inventory, price, and depth variables, and evaluate its performance against established benchmarks. Numerical simulation results show that the agent learns a policy that is both strategic and tactical, adapting effectively to order book conditions and outperforming standard approaches across multiple training configurations. These findings provide strong evidence that model-free Reinforcement Learning can yield adaptive and robust solutions to the optimal execution problem.
- Abstract(参考訳): 本稿では,メタオーダーの最適実行における強化学習の利用について検討し,実装不足と市場への影響を長期にわたって最小化しつつ,段階的に大規模な注文を実行することを目的とする。
価格ダイナミクスやインパクトモデリングといった従来のパラメトリックアプローチとは別に、モデルフリーでデータ駆動のフレームワークを採用しています。
政策最適化には,過去のデータでは提供できない反実的フィードバックが必要であるため,過渡的な価格変動を含む現実的かつトラクタブルなリミットオーダーブックシミュレーションと非線形および動的順序フロー応答を生成するためにキュー・リフレクティブ・モデルを用いる。
提案手法は,時間,在庫,価格,深度変数からなる状態空間上でDouble Deep Q-Networkエージェントを訓練し,その性能を確立されたベンチマークに対して評価する。
数値シミュレーションの結果, エージェントは戦略的かつ戦術的な政策を学習し, 注文書条件に効果的に対応し, 複数のトレーニング構成において標準的アプローチより優れていた。
これらの結果から,モデルレス強化学習が最適実行問題に対して適応的かつ堅牢な解が得られることが示唆された。
関連論文リスト
- Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。
当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。
この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文 参考訳(メタデータ) (2025-03-28T16:42:21Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - A Modular Framework for Reinforcement Learning Optimal Execution [68.8204255655161]
我々は、最適貿易実行問題への強化学習の適用のためのモジュラーフレームワークを開発する。
このフレームワークは、異なるシミュレーション設定の実装を容易にするために、柔軟性を念頭に設計されている。
論文 参考訳(メタデータ) (2022-08-11T09:40:42Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。