論文の概要: Optimal Execution with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.06389v2
- Date: Sat, 01 Nov 2025 19:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 20:19:58.346279
- Title: Optimal Execution with Reinforcement Learning
- Title(参考訳): 強化学習による最適実行
- Authors: Yadh Hafsi, Edoardo Vittori,
- Abstract要約: 本研究では,強化学習による最適実行戦略の開発について検討する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
その結果, 強化学習エージェントは, 標準的な戦略よりも優れ, 実世界のトレーディングアプリケーションに実用的な基盤を提供することがわかった。
- 参考スコア(独自算出の注目度): 0.15469452301122175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the development of an optimal execution strategy through reinforcement learning, aiming to determine the most effective approach for traders to buy and sell inventory within a finite time horizon. Our proposed model leverages input features derived from the current state of the limit order book and operates at a high frequency to maximize control. To simulate this environment and overcome the limitations associated with relying on historical data, we utilize the multi-agent market simulator ABIDES, which provides a diverse range of depth levels within the limit order book. We present a custom MDP formulation followed by the results of our methodology and benchmark the performance against standard execution strategies. Results show that the reinforcement learning agent outperforms standard strategies and offers a practical foundation for real-world trading applications.
- Abstract(参考訳): 本研究では、トレーダーが在庫を有限時間で売買する上で最も効果的な方法を決定することを目的とした、強化学習による最適実行戦略の開発について検討する。
提案モデルでは,制限順序帳の現在の状態から得られる入力特性を活用し,制御を最大化するために高周波数で動作する。
この環境をシミュレートし、過去のデータに依存した制限を克服するために、制限順序帳内に様々な深さレベルを提供するマルチエージェント市場シミュレータABIDESを利用する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
その結果, 強化学習エージェントは, 標準的な戦略よりも優れ, 実世界のトレーディングアプリケーションに実用的な基盤を提供することがわかった。
関連論文リスト
- Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - NEAT Algorithm-based Stock Trading Strategy with Multiple Technical Indicators Resonance [0.8158530638728501]
複数の技術指標を用いた株式取引にNEAT(NeuroEvolution of Augmenting Topologies)アルゴリズムを適用した。
当社のアプローチは、収益を最大化し、リスクを回避し、バイアンドホールド戦略を上回ることに重点を置いています。
本研究の結果から,NEATモデルはバイヤー・アンド・ホールド戦略と同様のリターンを得たが,リスク露光が低く,安定性が向上した。
論文 参考訳(メタデータ) (2024-12-11T05:42:15Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Deep Limit Order Book Forecasting [2.771933807499954]
我々は、最先端の深層学習手法を利用して、高頻度リミットオーダーブックの中間価格変化の予測可能性を探る。
大規模なリミットオーダーブックデータを効率的に処理するオープンソースコードベースであるLOBFrame'をリリースする。
論文 参考訳(メタデータ) (2024-03-14T10:44:10Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - LOB-Based Deep Learning Models for Stock Price Trend Prediction: A
Benchmark Study [4.714825039388054]
我々は、データ前処理、DLモデルトレーニング、評価、利益分析を組み込んだオープンソースのフレームワークを開発する。
実験の結果,すべてのモデルが新たなデータに曝露した場合,大幅な性能低下を示し,実際の市場適用可能性に関する疑問が提起された。
論文 参考訳(メタデータ) (2023-07-05T14:28:38Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Deep Inventory Management [3.578617477295742]
本稿では,定期的な在庫管理システムを実現するための深層強化学習手法を提案する。
いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、あるいは競争的であることを示す。
論文 参考訳(メタデータ) (2022-10-06T18:00:25Z) - Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文 参考訳(メタデータ) (2021-05-21T21:56:12Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。