論文の概要: FlowOE: Imitation Learning with Flow Policy from Ensemble RL Experts for Optimal Execution under Heston Volatility and Concave Market Impacts
- arxiv url: http://arxiv.org/abs/2506.05755v1
- Date: Fri, 06 Jun 2025 05:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.331576
- Title: FlowOE: Imitation Learning with Flow Policy from Ensemble RL Experts for Optimal Execution under Heston Volatility and Concave Market Impacts
- Title(参考訳): FlowOE: ヘストンのボラティリティとコンケーブ市場の影響下での最適実行のためのRLエキスパートによるフローポリシーによる模倣学習
- Authors: Yang Li, Zhi Chen,
- Abstract要約: FlowOEはフローマッチングモデルに基づく新しい模倣学習フレームワークである。
FlowOEはさまざまな専門家の戦略から学び、市場状況に適応的に最も適した専門家の行動を選択する。
- 参考スコア(独自算出の注目度): 11.523583937607622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal execution in financial markets refers to the process of strategically transacting a large volume of assets over a period to achieve the best possible outcome by balancing the trade-off between market impact costs and timing or volatility risks. Traditional optimal execution strategies, such as static Almgren-Chriss models, often prove suboptimal in dynamic financial markets. This paper propose flowOE, a novel imitation learning framework based on flow matching models, to address these limitations. FlowOE learns from a diverse set of expert traditional strategies and adaptively selects the most suitable expert behavior for prevailing market conditions. A key innovation is the incorporation of a refining loss function during the imitation process, enabling flowOE not only to mimic but also to improve upon the learned expert actions. To the best of our knowledge, this work is the first to apply flow matching models in a stochastic optimal execution problem. Empirical evaluations across various market conditions demonstrate that flowOE significantly outperforms both the specifically calibrated expert models and other traditional benchmarks, achieving higher profits with reduced risk. These results underscore the practical applicability and potential of flowOE to enhance adaptive optimal execution.
- Abstract(参考訳): 金融市場における最適実行とは、市場影響コストとタイミングまたはボラティリティリスクの間のトレードオフをバランスさせることにより、一期間にわたって大量の資産を戦略的に取引し、最良の結果を達成する過程を指す。
静的アルムグレン・クリスモデルのような伝統的な最適実行戦略は、動的金融市場では最適ではないことがしばしば証明される。
本稿では,フローマッチングモデルに基づく新しい模倣学習フレームワークであるFlowOEを提案する。
FlowOEはさまざまな専門家の戦略から学び、市場状況に適応的に最も適した専門家の行動を選択する。
重要なイノベーションは、模倣プロセス中に精製損失関数を組み込むことで、flowOEが模倣できるだけでなく、学習した専門家の行動を改善することもできる。
我々の知る限り、この研究は確率的最適実行問題にフローマッチングモデルを適用する最初のものである。
様々な市場条件における実証的な評価は、FlowOEが特定のキャリブレーションされたエキスパートモデルと他の伝統的なベンチマークの両方を著しく上回り、リスクを低減して高い利益を達成していることを示している。
これらの結果から, 適応的最適実行を向上させるために, flowOEの実用性と可能性を明らかにする。
関連論文リスト
- Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization [82.03139922490796]
強化学習(Reinforcement Learning, RL)は、過去のデータを用いたリスクを最小限にしつつ累積リターンを最大化することを目的とした、株式取引のような逐次的ポートフォリオ最適化タスクにおいて、大きな可能性を示してきた。
従来のRLアプローチは、固定データセット内での振る舞いの購入と販売を最適に記憶するだけのポリシーを生成することが多い。
当社のアプローチでは,ポートフォリオ最適化を新たなタイプの部分オフラインRL問題として捉え,2つの技術的貢献を行う。
論文 参考訳(メタデータ) (2025-05-19T06:37:25Z) - FlowHFT: Imitation Learning via Flow Matching Policy for Optimal High-Frequency Trading under Diverse Market Conditions [10.253213044505431]
高周波トレーディング(英: high- frequency trading、HFT)は、市場状態を継続的に監視し、入札を行い、ミリ秒の速度で注文を求める投資戦略である。
従来のHFTアプローチは、過去のデータとモデルに適合し、将来の市場状態も同様のパターンに従うと仮定する。
本稿では,フローマッチングポリシーに基づく新しい模倣学習フレームワークであるFlowHFTを提案する。
論文 参考訳(メタデータ) (2025-05-09T04:58:14Z) - OptiGrad: A Fair and more Efficient Price Elasticity Optimization via a Gradient Based Learning [7.145413681946911]
本稿では,非生命保険市場の利益率を勾配降下法により最適化する新しい手法を提案する。
1)利益マージンの最大化、2)転換率の確保、3)人口比率(DP)などの公正基準の実施の3つの主要な目標を目標としている。
論文 参考訳(メタデータ) (2024-04-16T04:21:59Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - HireVAE: An Online and Adaptive Factor Model Based on Hierarchical and
Regime-Switch VAE [113.47287249524008]
オンラインで適応的な環境で株価予測を行うファクターモデルを構築することは、依然としてオープンな疑問である。
本稿では,オンラインおよび適応型要素モデルであるHireVAEを,市場状況とストックワイド潜在要因の関係を埋め込んだ階層型潜在空間として提案する。
4つの一般的な実市場ベンチマークにおいて、提案されたHireVAEは、以前の手法よりもアクティブリターンの点で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-05T12:58:13Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics
in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。
最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。
予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-07T18:59:54Z) - Deep Reinforcement Learning and Convex Mean-Variance Optimisation for
Portfolio Management [0.0]
強化学習(RL)法は明示的な予測に頼らず、多段階決定プロセスに適している。
総合的な傾向の異なる経済の3つの市場で実験が行われた。
論文 参考訳(メタデータ) (2022-02-13T10:12:09Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。