論文の概要: Diverse Approaches to Optimal Execution Schedule Generation
- arxiv url: http://arxiv.org/abs/2601.22113v1
- Date: Thu, 29 Jan 2026 18:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.084029
- Title: Diverse Approaches to Optimal Execution Schedule Generation
- Title(参考訳): 最適実行スケジュール生成への多元的アプローチ
- Authors: Robert de Witt, Mikko S. Pakkanen,
- Abstract要約: 本稿では,品質多様性アルゴリズムMAP-Elitesの取引実行への応用について述べる。
MAP-Elitesは、単一の最適政策を探すのではなく、流動性とボラティリティの条件によって索引付けされた、多種多様な体制-特殊主義戦略のポートフォリオを生成する。
個々の専門家は行動ニッチの中で8~10%のパフォーマンス改善を達成する一方、他の細胞は劣化を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first application of MAP-Elites, a quality-diversity algorithm, to trade execution. Rather than searching for a single optimal policy, MAP-Elites generates a diverse portfolio of regime-specialist strategies indexed by liquidity and volatility conditions. Individual specialists achieve 8-10% performance improvements within their behavioural niches, while other cells show degradation, suggesting opportunities for ensemble approaches that combine improved specialists with the baseline PPO policy. Results indicate that quality-diversity methods offer promise for regime-adaptive execution, though substantial computational resources per behavioural cell may be required for robust specialist development across all market conditions. To ensure experimental integrity, we develop a calibrated Gymnasium environment focused on order scheduling rather than tactical placement decisions. The simulator features a transient impact model with exponential decay and square-root volume scaling, fit to 400+ U.S. equities with R^2>0.02 out-of-sample. Within this environment, two Proximal Policy Optimization architectures - both MLP and CNN feature extractors - demonstrate substantial improvements over industry baselines, with the CNN variant achieving 2.13 bps arrival slippage versus 5.23 bps for VWAP on 4,900 out-of-sample orders ($21B notional). These results validate both the simulation realism and provide strong single-policy baselines for quality-diversity methods.
- Abstract(参考訳): 本稿では,品質多様性アルゴリズムMAP-Elitesの取引実行への応用について述べる。
MAP-Elitesは、単一の最適政策を探すのではなく、流動性とボラティリティの条件によって索引付けされた、多種多様な体制-特殊主義戦略のポートフォリオを生成する。
個々の専門家は行動ニッチの中で8~10%のパフォーマンス向上を達成する一方、他の細胞は劣化を示し、改善された専門家とベースラインのPPOポリシーを組み合わせたアプローチの機会を示唆している。
以上の結果から, 品質多様性の手法は, 環境適応型実行を約束するが, 市場環境全体にわたる堅牢なスペシャリスト開発には, 行動セル当たりの計算資源が不可欠であることが示唆された。
実験的な整合性を確保するため,戦術的配置決定よりも順序スケジューリングに着目した校正型体育館環境を構築した。
このシミュレーターは指数減衰と平方根体積スケーリングを備えた過渡的衝撃モデルを備え、R^2>0.02のアウト・オブ・サンプルで400以上の米国株に適合する。
この環境では、MLPとCNNの機能抽出器の2つのプロクシマルポリシー最適化アーキテクチャが、業界ベースラインよりも大幅に改善され、CNNの派生型は4,900のアウトオブサンプルオーダー(21B)でVWAPが2.13bps、VWAPは5.23bpsに達した。
これらの結果はシミュレーションリアリズムを検証し、品質多様性の手法に強力な単一政治ベースラインを提供する。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T05:32:44Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Evolutionary Policy Optimization [47.30139909878251]
オンライン強化学習(RL)アルゴリズムは、高いパフォーマンスとトレーニング安定性のために広く利用されているが、より大きなバッチサイズでスケールするのに苦労している。
本稿では、EAのスケーラビリティと多様性と、政策勾配の性能と安定性を組み合わせたハイブリッドである進化的政策最適化(EPO)を提案する。
論文 参考訳(メタデータ) (2025-03-24T18:08:54Z) - A RankNet-Inspired Surrogate-Assisted Hybrid Metaheuristic for Expensive Coverage Optimization [5.757318591302855]
大規模カバレッジ最適化タスクを処理するために,RangeNetによるSurrogate支援ハイブリッドメタヒューリスティックを提案する。
我々のアルゴリズムは、EMVOPの最先端アルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-13T14:49:05Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。