論文の概要: Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement
Learning For Optimal Execution
- arxiv url: http://arxiv.org/abs/2207.11152v1
- Date: Fri, 22 Jul 2022 15:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:42:26.604033
- Title: Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement
Learning For Optimal Execution
- Title(参考訳): アクション・スペース強化のハイブリッド学習 : 連続的, 離散的: 最適実行のための学習
- Authors: Feiyang Pan, Tongzhe Zhang, Ling Luo, Jia He, Shuoling Liu
- Abstract要約: 強化学習は、注文分割のサイズを決定するのに役立つ。
主な課題は、アクション空間の「連続離散双対性」にある。
本稿では,両者の利点を組み合わせたハイブリッドRL法を提案する。
- 参考スコア(独自算出の注目度): 8.021077964915996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimal execution is a sequential decision-making problem for cost-saving in
algorithmic trading. Studies have found that reinforcement learning (RL) can
help decide the order-splitting sizes. However, a problem remains unsolved: how
to place limit orders at appropriate limit prices? The key challenge lies in
the "continuous-discrete duality" of the action space. On the one hand, the
continuous action space using percentage changes in prices is preferred for
generalization. On the other hand, the trader eventually needs to choose limit
prices discretely due to the existence of the tick size, which requires
specialization for every single stock with different characteristics (e.g., the
liquidity and the price range). So we need continuous control for
generalization and discrete control for specialization. To this end, we propose
a hybrid RL method to combine the advantages of both of them. We first use a
continuous control agent to scope an action subset, then deploy a fine-grained
agent to choose a specific limit price. Extensive experiments show that our
method has higher sample efficiency and better training stability than existing
RL algorithms and significantly outperforms previous learning-based methods for
order execution.
- Abstract(参考訳): 最適実行はアルゴリズム取引におけるコスト削減のための逐次的意思決定問題である。
研究によると、強化学習(RL)は順序分割のサイズを決定するのに役立つ。
しかし、問題は未解決のままである: 適切なリミット価格にどのようにリミットオーダーを置くか?
重要な課題は、アクション空間の「連続-離散双対性」にある。
一方,価格変動率を用いた連続的な行動空間が一般化に好まれる。
一方、トレーダは最終的に、異なる特性(例えば、流動性と価格範囲)を持つ全ての在庫の専門化を必要とするダックサイズの存在により、個別にリミット価格を選択する必要がある。
そのため、一般化のための連続制御と特殊化のための離散制御が必要です。
そこで本研究では,両者の利点を両立させるハイブリッドRL法を提案する。
まず、アクションサブセットをスコープするために継続的制御エージェントを使用し、次に特定の制限価格を選択するためにきめ細かいエージェントをデプロイします。
大規模な実験により,本手法は既存のRLアルゴリズムよりも標本効率が高く,訓練の安定性が向上し,従来の学習に基づく命令実行法よりも優れていた。
関連論文リスト
- Double-Bounded Optimal Transport for Advanced Clustering and
Classification [58.237576976486544]
本稿では,2つの境界内での目標分布の制限を前提としたDB-OT(Douubly bounded Optimal Transport)を提案する。
提案手法は,テスト段階における改良された推論方式により,良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-21T07:43:01Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Actor-Critic with variable time discretization via sustained actions [0.0]
SusACERは、異なる時間離散化設定の利点を組み合わせた、非政治強化学習アルゴリズムである。
ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
論文 参考訳(メタデータ) (2023-08-08T14:45:00Z) - Budgeting Counterfactual for Offline RL [25.918011878015136]
本稿では,トレーニング中のアウト・オブ・ディストリビューション・アクションの量を明示的に制限する手法を提案する。
そこで本研究では,D4RL ベンチマークのタスクにおける最先端のオフライン RL 手法よりも,本手法の全体的な性能がよいことを示す。
論文 参考訳(メタデータ) (2023-07-12T17:47:35Z) - Learning Multi-Agent Intention-Aware Communication for Optimal
Multi-Order Execution in Finance [96.73189436721465]
まず,現実的な制約を考慮したマルチオーダー実行のためのマルチエージェントRL(MARL)手法を提案する。
本稿では,学習可能なマルチラウンド通信プロトコルを提案する。
2つの実世界の市場のデータに関する実験では、優れたパフォーマンスを示し、コラボレーションの有効性が著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T16:45:40Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Online Bidding Algorithms for Return-on-Spend Constrained Advertisers [10.500109788348732]
この研究は、人気が高まっている制約の下で、単一の価値を最大化する広告主のための効率的なオンラインアルゴリズムを探索する。
我々は,指定したRoS制約を常に尊重しながら,期待のほぼ最適に後悔する簡単なオンラインアルゴリズムに貢献する。
論文 参考訳(メタデータ) (2022-08-29T16:49:24Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning [2.4565068569913384]
本稿では,注文数を最小限に抑えるため,倉庫内で注文のバッチ化と選択のタイミングを決定するために,Deep Reinforcement Learning (DRL) アプローチを提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、または、他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかを判断することを容易にする。
論文 参考訳(メタデータ) (2020-06-16T20:40:41Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。