論文の概要: Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window
Denoise PPO
- arxiv url: http://arxiv.org/abs/2206.10736v1
- Date: Tue, 21 Jun 2022 21:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 08:53:47.558535
- Title: Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window
Denoise PPO
- Title(参考訳): imitate then transcend: dual-window denoise ppoによるマルチエージェント最適実行
- Authors: Jin Fang, Jiacheng Weng, Yi Xiang, Xinwen Zhang
- Abstract要約: 再現性のある強化学習(RL)を用いた最適実行と配置問題の解法を提案する。
提案したフレームワークからトレーニングされたRLエージェントは、実行コストにおいて、業界ベンチマークのTWAP(Time-weighted average price)戦略を一貫して上回った。
- 参考スコア(独自算出の注目度): 13.05016423016994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A novel framework for solving the optimal execution and placement problems
using reinforcement learning (RL) with imitation was proposed. The RL agents
trained from the proposed framework consistently outperformed the industry
benchmark time-weighted average price (TWAP) strategy in execution cost and
showed great generalization across out-of-sample trading dates and tickers. The
impressive performance was achieved from three aspects. First, our RL network
architecture called Dual-window Denoise PPO enabled efficient learning in a
noisy market environment. Second, a reward scheme with imitation learning was
designed, and a comprehensive set of market features was studied. Third, our
flexible action formulation allowed the RL agent to tackle optimal execution
and placement collectively resulting in better performance than solving
individual problems separately. The RL agent's performance was evaluated in our
multi-agent realistic historical limit order book simulator in which price
impact was accurately assessed. In addition, ablation studies were also
performed, confirming the superiority of our framework.
- Abstract(参考訳): 再現性のある強化学習(RL)を用いた最適実行と配置問題の解法を提案する。
提案したフレームワークからトレーニングしたRLエージェントは、実行コストにおいて業界ベンチマークの時間重み付き平均価格(TWAP)戦略を一貫して上回り、サンプル外取引日時とティッカーをまたいで非常に一般化した。
印象的なパフォーマンスは3つの側面から達成された。
まず、Dual-window Denoise PPOと呼ばれるRLネットワークアーキテクチャにより、ノイズの多い市場環境で効率的な学習が可能になった。
第2に、模倣学習による報酬スキームをデザインし、市場特性の包括的集合を考察した。
第3に、当社のフレキシブルアクション定式化により、RLエージェントが最適な実行と配置に取り組み、個々の問題を個別に解くよりも性能が向上した。
RLエージェントの性能を,価格の影響を正確に評価したマルチエージェントの現実的歴史制限順序帳シミュレータで評価した。
さらにアブレーション試験も実施し,本フレームワークの優位性を確認した。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning [13.753960633998389]
強化学習 (Reinforcement Learning, RL) は, 特定のタスクにおいて, 大規模言語モデル (LLM) を微調整するための重要な手法として登場した。
本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。
その結果,CORYは政策最適性,分散崩壊抵抗性,ロバスト性の訓練においてPPOよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T14:55:26Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文 参考訳(メタデータ) (2024-03-21T03:42:39Z) - Domain-adapted Learning and Imitation: DRL for Power Arbitrage [1.6874375111244329]
本稿では,この二段階シミュレーションと欧州電力仲裁取引の最適化のための協調的二重エージェント強化学習手法を提案する。
電力トレーダーの取引行動を模倣してドメイン固有の知識を取り入れた2つの新しい実装を導入する。
本研究は,ドメインの知識を一般学習問題に活用することにより,性能を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-01-19T23:36:23Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Model-Free Reinforcement Learning for Asset Allocation [0.0]
本研究では, モデルフリー深部RLエージェントを用いたポートフォリオ管理における強化学習の性能について検討した。
実物価格で複数のRLエージェントを訓練し、アセットアロケーションの実施方法を学びました。
4つのRL剤(A2C, SAC, PPO, TRPO)は総じてMPTを上回った。
論文 参考訳(メタデータ) (2022-09-21T16:00:24Z) - Functional Optimization Reinforcement Learning for Real-Time Bidding [14.5826735379053]
リアルタイム入札はプログラム広告の新しいパラダイムである。
既存のアプローチは、入札最適化に十分なソリューションを提供するのに苦労しています。
本稿では,機能最適化を伴うRTBのためのマルチエージェント強化学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-25T06:12:17Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。