論文の概要: Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window
Denoise PPO
- arxiv url: http://arxiv.org/abs/2206.10736v1
- Date: Tue, 21 Jun 2022 21:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 08:53:47.558535
- Title: Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window
Denoise PPO
- Title(参考訳): imitate then transcend: dual-window denoise ppoによるマルチエージェント最適実行
- Authors: Jin Fang, Jiacheng Weng, Yi Xiang, Xinwen Zhang
- Abstract要約: 再現性のある強化学習(RL)を用いた最適実行と配置問題の解法を提案する。
提案したフレームワークからトレーニングされたRLエージェントは、実行コストにおいて、業界ベンチマークのTWAP(Time-weighted average price)戦略を一貫して上回った。
- 参考スコア(独自算出の注目度): 13.05016423016994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A novel framework for solving the optimal execution and placement problems
using reinforcement learning (RL) with imitation was proposed. The RL agents
trained from the proposed framework consistently outperformed the industry
benchmark time-weighted average price (TWAP) strategy in execution cost and
showed great generalization across out-of-sample trading dates and tickers. The
impressive performance was achieved from three aspects. First, our RL network
architecture called Dual-window Denoise PPO enabled efficient learning in a
noisy market environment. Second, a reward scheme with imitation learning was
designed, and a comprehensive set of market features was studied. Third, our
flexible action formulation allowed the RL agent to tackle optimal execution
and placement collectively resulting in better performance than solving
individual problems separately. The RL agent's performance was evaluated in our
multi-agent realistic historical limit order book simulator in which price
impact was accurately assessed. In addition, ablation studies were also
performed, confirming the superiority of our framework.
- Abstract(参考訳): 再現性のある強化学習(RL)を用いた最適実行と配置問題の解法を提案する。
提案したフレームワークからトレーニングしたRLエージェントは、実行コストにおいて業界ベンチマークの時間重み付き平均価格(TWAP)戦略を一貫して上回り、サンプル外取引日時とティッカーをまたいで非常に一般化した。
印象的なパフォーマンスは3つの側面から達成された。
まず、Dual-window Denoise PPOと呼ばれるRLネットワークアーキテクチャにより、ノイズの多い市場環境で効率的な学習が可能になった。
第2に、模倣学習による報酬スキームをデザインし、市場特性の包括的集合を考察した。
第3に、当社のフレキシブルアクション定式化により、RLエージェントが最適な実行と配置に取り組み、個々の問題を個別に解くよりも性能が向上した。
RLエージェントの性能を,価格の影響を正確に評価したマルチエージェントの現実的歴史制限順序帳シミュレータで評価した。
さらにアブレーション試験も実施し,本フレームワークの優位性を確認した。
関連論文リスト
- Trial and Error: Exploration-Based Trajectory Optimization for LLM
Agents [52.82856458995437]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Imitation Bootstrapped Reinforcement Learning [34.86656132858631]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。
IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文 参考訳(メタデータ) (2023-11-03T19:03:20Z) - PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning [30.533883667629887]
階層的強化学習は、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Domain-adapted Learning and Imitation: DRL for Power Arbitrage [1.6874375111244329]
本稿では,この二段階シミュレーションと欧州電力仲裁取引の最適化のための協調的二重エージェント強化学習手法を提案する。
電力トレーダーの取引行動を模倣してドメイン固有の知識を取り入れた2つの新しい実装を導入する。
本研究は,ドメインの知識を一般学習問題に活用することにより,性能を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-01-19T23:36:23Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Model-Free Reinforcement Learning for Asset Allocation [0.0]
本研究では, モデルフリー深部RLエージェントを用いたポートフォリオ管理における強化学習の性能について検討した。
実物価格で複数のRLエージェントを訓練し、アセットアロケーションの実施方法を学びました。
4つのRL剤(A2C, SAC, PPO, TRPO)は総じてMPTを上回った。
論文 参考訳(メタデータ) (2022-09-21T16:00:24Z) - Functional Optimization Reinforcement Learning for Real-Time Bidding [14.5826735379053]
リアルタイム入札はプログラム広告の新しいパラダイムである。
既存のアプローチは、入札最適化に十分なソリューションを提供するのに苦労しています。
本稿では,機能最適化を伴うRTBのためのマルチエージェント強化学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-25T06:12:17Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。