論文の概要: Optimal Execution with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.06389v1
- Date: Sun, 10 Nov 2024 08:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:46.189065
- Title: Optimal Execution with Reinforcement Learning
- Title(参考訳): 強化学習による最適実行
- Authors: Yadh Hafsi, Edoardo Vittori,
- Abstract要約: 本研究では,強化学習による最適実行戦略の開発について検討する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
- 参考スコア(独自算出の注目度): 0.4972323953932129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the development of an optimal execution strategy through reinforcement learning, aiming to determine the most effective approach for traders to buy and sell inventory within a limited time frame. Our proposed model leverages input features derived from the current state of the limit order book. To simulate this environment and overcome the limitations associated with relying on historical data, we utilize the multi-agent market simulator ABIDES, which provides a diverse range of depth levels within the limit order book. We present a custom MDP formulation followed by the results of our methodology and benchmark the performance against standard execution strategies. Our findings suggest that the reinforcement learning-based approach demonstrates significant potential.
- Abstract(参考訳): 本研究では,限られた時間枠で在庫を売買する取引業者にとって,最も効果的な方法を決定することを目的とした,強化学習による最適実行戦略の開発について検討する。
提案モデルでは,制限順序帳の現在の状態から得られる入力特徴を活用している。
この環境をシミュレートし、過去のデータに依存した制限を克服するために、制限順序帳内に様々な深さレベルを提供するマルチエージェント市場シミュレータABIDESを利用する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
本研究は,強化学習に基づくアプローチが有意な可能性を示唆している。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution [0.35932002706017546]
メタオーダーの最適実行における強化学習の利用について検討する。
目的は、実装不足と市場への影響を最小限に抑えながら、段階的に大規模な注文を実行することである。
我々はキュー・リフレクティブ・モデルを用いて現実的でトラクタブルなリミットオーダーブックシミュレーションを生成する。
論文 参考訳(メタデータ) (2025-11-19T09:26:23Z) - Continuous-Time Reinforcement Learning for Asset-Liability Management [0.0]
本稿では,連続時間強化学習(RL)を用いたアセット・リバビリティ・マネジメント(ALM)の新しいアプローチを提案する。
本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。
本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
論文 参考訳(メタデータ) (2025-09-27T12:36:51Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - NEAT Algorithm-based Stock Trading Strategy with Multiple Technical Indicators Resonance [0.8158530638728501]
複数の技術指標を用いた株式取引にNEAT(NeuroEvolution of Augmenting Topologies)アルゴリズムを適用した。
当社のアプローチは、収益を最大化し、リスクを回避し、バイアンドホールド戦略を上回ることに重点を置いています。
本研究の結果から,NEATモデルはバイヤー・アンド・ホールド戦略と同様のリターンを得たが,リスク露光が低く,安定性が向上した。
論文 参考訳(メタデータ) (2024-12-11T05:42:15Z) - Mean--Variance Portfolio Selection by Continuous-Time Reinforcement Learning: Algorithms, Regret Analysis, and Empirical Study [10.404992912881601]
株価が拡散過程である市場において、同時に拡散過程である観測可能な要因によって駆動される、持続時間平均変動ポートフォリオの選択について検討する。
本稿では,市場係数の学習や推定を行うことなく,事前委託投資戦略を直接学習する汎用データ駆動型RLアルゴリズムを提案する。
提案された連続時間RL戦略は、特に揮発性クマ市場において、一貫して最良であり、モデルベースの連続時間戦略よりもかなりのマージンで決定的に優れている。
論文 参考訳(メタデータ) (2024-12-08T15:31:10Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Deep Limit Order Book Forecasting [2.771933807499954]
我々は、最先端の深層学習手法を利用して、高頻度リミットオーダーブックの中間価格変化の予測可能性を探る。
大規模なリミットオーダーブックデータを効率的に処理するオープンソースコードベースであるLOBFrame'をリリースする。
論文 参考訳(メタデータ) (2024-03-14T10:44:10Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - LOB-Based Deep Learning Models for Stock Price Trend Prediction: A
Benchmark Study [4.714825039388054]
我々は、データ前処理、DLモデルトレーニング、評価、利益分析を組み込んだオープンソースのフレームワークを開発する。
実験の結果,すべてのモデルが新たなデータに曝露した場合,大幅な性能低下を示し,実際の市場適用可能性に関する疑問が提起された。
論文 参考訳(メタデータ) (2023-07-05T14:28:38Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Asynchronous Deep Double Duelling Q-Learning for Trading-Signal
Execution in Limit Order Book Markets [5.202524136984542]
我々は、エージェントを訓練し、高周波取引信号を個々のリミット注文を配置するトレーディング戦略に変換するために、深層強化学習を採用している。
ABIDESリミテッドオーダーブックシミュレータをベースとして,強化学習型オープンAIジム環境を構築した。
我々はRLエージェントが在庫管理の効果的な取引戦略を学習し、同じ信号にアクセス可能なベンチマークトレーディング戦略より優れていることを見出した。
論文 参考訳(メタデータ) (2023-01-20T17:19:18Z) - Deep Inventory Management [3.578617477295742]
本稿では,定期的な在庫管理システムを実現するための深層強化学習手法を提案する。
いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、あるいは競争的であることを示す。
論文 参考訳(メタデータ) (2022-10-06T18:00:25Z) - Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文 参考訳(メタデータ) (2021-05-21T21:56:12Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。