論文の概要: Universal Trading for Order Execution with Oracle Policy Distillation
- arxiv url: http://arxiv.org/abs/2103.10860v1
- Date: Thu, 28 Jan 2021 05:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 11:13:10.589326
- Title: Universal Trading for Order Execution with Oracle Policy Distillation
- Title(参考訳): oracleのポリシー蒸留による注文実行のためのユニバーサル取引
- Authors: Yuchen Fang, Kan Ren, Weiqing Liu, Dong Zhou, Weinan Zhang, Jiang
Bian, Yong Yu, Tie-Yan Liu
- Abstract要約: 本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
- 参考スコア(独自算出の注目度): 99.57416828489568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental problem in algorithmic trading, order execution aims at
fulfilling a specific trading order, either liquidation or acquirement, for a
given instrument. Towards effective execution strategy, recent years have
witnessed the shift from the analytical view with model-based market
assumptions to model-free perspective, i.e., reinforcement learning, due to its
nature of sequential decision optimization. However, the noisy and yet
imperfect market information that can be leveraged by the policy has made it
quite challenging to build up sample efficient reinforcement learning methods
to achieve effective order execution. In this paper, we propose a novel
universal trading policy optimization framework to bridge the gap between the
noisy yet imperfect market states and the optimal action sequences for order
execution. Particularly, this framework leverages a policy distillation method
that can better guide the learning of the common policy towards practically
optimal execution by an oracle teacher with perfect information to approximate
the optimal trading strategy. The extensive experiments have shown significant
improvements of our method over various strong baselines, with reasonable
trading actions.
- Abstract(参考訳): アルゴリズム取引における基本的な問題として、注文実行は、特定の商品の清算または取得という特定の取引順序を満たすことを目的としている。
近年、効果的な実行戦略に向けて、モデルに基づく市場仮定による分析的視点からモデルなし視点、すなわち強化学習への転換を、シーケンシャルな決定最適化の性質から見てきた。
しかし、この政策で活用できる不完全な市場情報は、効率的な注文実行を実現するための効率的な強化学習手法のサンプルを構築することを非常に困難にしている。
本稿では,うるさいが不完全な市場状態と注文実行の最適なアクションシーケンスとのギャップを埋めるための,新たなユニバーサル取引政策最適化フレームワークを提案する。
特に、このフレームワークはポリシー蒸留法を活用し、最適な取引戦略を近似する完璧な情報を持つオラクルの教師による事実上の最適な実行に向けて、共通のポリシーの学習を導くことができる。
大規模な実験により, 様々な強塩基性に対して, 合理的な取引行動により, 提案手法の大幅な改善が示された。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Deep Learning for Options Trading: An End-To-End Approach [7.148312060227716]
我々は、高度にスケーラブルでデータ駆動の機械学習アルゴリズムを用いて、オプショントレーディング戦略に新しいアプローチを導入する。
エンドツーエンドアプローチでトレーニングしたディープラーニングモデルは、既存のルールベースのトレーディング戦略よりも、リスク調整されたパフォーマンスが大幅に向上していることを示します。
論文 参考訳(メタデータ) (2024-07-31T17:59:09Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Learning the Market: Sentiment-Based Ensemble Trading Agents [5.193582840789407]
株価取引のための感情分析と深層強化学習アンサンブルアルゴリズムの統合を提案する。
当社のアプローチは、利益があり、堅牢で、リスク最小限の戦略をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-02-02T14:34:22Z) - An Ensemble Method of Deep Reinforcement Learning for Automated
Cryptocurrency Trading [16.78239969166596]
深層強化学習アルゴリズムにより訓練された貿易戦略の一般化性能を向上させるためのアンサンブル手法を提案する。
提案手法は, 深層強化学習戦略とパッシブ投資戦略のベンチマークと比較し, サンプル外性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:00:09Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Learning Multi-Agent Intention-Aware Communication for Optimal
Multi-Order Execution in Finance [96.73189436721465]
まず,現実的な制約を考慮したマルチオーダー実行のためのマルチエージェントRL(MARL)手法を提案する。
本稿では,学習可能なマルチラウンド通信プロトコルを提案する。
2つの実世界の市場のデータに関する実験では、優れたパフォーマンスを示し、コラボレーションの有効性が著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T16:45:40Z) - Towards Generalizable Reinforcement Learning for Trade Execution [25.199192981742744]
市場データからよりスマートなポリシーを学ぶために、貿易実行の最適化に強化学習(RL)が適用されている。
既存のRLメソッドの多くは、実際のデプロイを妨げている、かなりの過度なオーバーフィッティングを示す。
本稿では,事前知識の活用やエンドツーエンドの手法により,コンテキストのコンパクトな表現を学習し,過度に適合する問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-05-12T02:41:11Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Deep Deterministic Portfolio Optimization [0.0]
この研究は、概念的には単純だが数学的には非自明なトレーディング環境上で強化学習アルゴリズムをテストすることである。
本研究では, 決定論的政策勾配アルゴリズムを深く研究し, このような強化学習エージェントが, 最適取引戦略の本質的特徴を回復できることを示す。
論文 参考訳(メタデータ) (2020-03-13T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。