論文の概要: Realistic Market Impact Modeling for Reinforcement Learning Trading Environments
- arxiv url: http://arxiv.org/abs/2603.29086v1
- Date: Mon, 30 Mar 2026 23:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.951354
- Title: Realistic Market Impact Modeling for Reinforcement Learning Trading Environments
- Title(参考訳): 強化学習トレーディング環境のための実効市場インパクトモデリング
- Authors: Lucas Riera Abbade, Anna Helena Reali Costa,
- Abstract要約: 非線形市場影響モデルを統合する3つのGymnasium互換トレーディング環境を導入する。
各環境は、プラグ可能なコストモデル、指数的崩壊を伴う永続的なインパクトトラッキング、包括的な貿易レベルのロギングを提供する。
FinRL-Metaのオープンソース拡張として、フルスイートをリリースしています。
- 参考スコア(独自算出の注目度): 0.9668407688201358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown promise for trading, yet most open-source backtesting environments assume negligible or fixed transaction costs, causing agents to learn trading behaviors that fail under realistic execution. We introduce three Gymnasium-compatible trading environments -- MACE (Market-Adjusted Cost Execution) stock trading, margin trading, and portfolio optimization -- that integrate nonlinear market impact models grounded in the Almgren-Chriss framework and the empirically validated square-root impact law. Each environment provides pluggable cost models, permanent impact tracking with exponential decay, and comprehensive trade-level logging. We evaluate five DRL algorithms (A2C, PPO, DDPG, SAC, TD3) on the NASDAQ-100, comparing a fixed 10 bps baseline against the AC model with Optuna-tuned hyperparameters. Our results show that (i) the cost model materially changes both absolute performance and the relative ranking of algorithms across all three environments; (ii) the AC model produces dramatically different trading behavior, e.g., daily costs dropping from $200k to $8k with turnover falling from 19% to 1%; (iii) hyperparameter optimization is essential for constraining pathological trading, with costs dropping up to 82%; and (iv) algorithm-cost model interactions are strongly environment-specific, e.g., DDPG's OOS Sharpe jumps from -2.1 to 0.3 under AC in margin trading while SAC's drops from -0.5 to -1.2. We release the full suite as an open-source extension to FinRL-Meta.
- Abstract(参考訳): 強化学習(RL)は、トレーディングの約束を示しているが、ほとんどのオープンソースのバックテスト環境は、無視または固定されたトランザクションコストを前提としており、エージェントは現実的な実行で失敗するトレーディングの振る舞いを学習する。
MACE(Market-Adjusted Cost Execution)の株価トレーディング、マージントレーディング、ポートフォリオ最適化の3つのGymnasium互換トレーディング環境を紹介します。
各環境は、プラグ可能なコストモデル、指数的崩壊を伴う永続的なインパクトトラッキング、包括的な貿易レベルのロギングを提供する。
NASDAQ-100では5つのDRLアルゴリズム (A2C, PPO, DDPG, SAC, TD3) を評価し, 固定10bpsのベースラインをオプチュナ調整型ハイパーパラメータと比較した。
私たちの結果は
一 コストモデルが三つの環境にまたがるアルゴリズムの絶対性能と相対ランクの両方を実質的に変更すること。
(II)交流モデルは、例えば、日々のコストが200kから8kに低下し、ターンオーバーが19%から1%に低下するなど、劇的に異なる取引行動を生成する。
三 過度パラメータ最適化は、病的取引を規制するために必要であり、コストは八2%まで低下する。
DDPG の OOS Sharpe は -2.1 から 0.3 に増加し、SAC は-0.5 から-1.2 に低下する。
FinRL-Metaのオープンソース拡張として、フルスイートをリリースしています。
関連論文リスト
- TraderBench: How Robust Are AI Agents in Adversarial Capital Markets? [8.661756660747042]
TraderBenchは金融のAIエージェントを評価するためのベンチマークである。
専門家が検証した静的タスク(知識検索、分析的推論)と敵の取引シミュレーションを組み合わせる。
2つの新しいトラック:4つのプログレッシブ・マーケット・マニピュレーション・トランスフォーメーションによる暗号取引、オプションデリバティブはP&Lの正確性、ギリシャ人、リスク管理である。
論文 参考訳(メタデータ) (2026-02-27T20:06:28Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - Hybrid Quantum-Classical Ensemble Learning for S\&P 500 Directional Prediction [0.2538209532048867]
本稿では,量子感情分析,決定変換アーキテクチャ,戦略的モデル選択を組み合わせたハイブリッドアンサンブルフレームワークを提案する。
S&P500予測の方向精度は60.14%で、個々のモデルよりも3.10%向上している。
論文 参考訳(メタデータ) (2025-12-06T22:22:09Z) - Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Deep Hedging with Market Impact [0.20482269513546458]
本稿では,Deep Reinforcement Learning(DRL)に基づく新しい市場インパクト動的ヘッジモデルを提案する。
DRLモデルから得られた最適ポリシーは、いくつかのオプションヘッジシミュレーションを用いて分析され、デルタヘッジのような一般的な手順と比較される。
論文 参考訳(メタデータ) (2024-02-20T19:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。