Fugu-MT 論文翻訳(概要): Deep Reinforcement Learning for Online Optimal Execution Strategies

論文の概要: Deep Reinforcement Learning for Online Optimal Execution Strategies

arxiv url: http://arxiv.org/abs/2410.13493v1
Date: Thu, 17 Oct 2024 12:38:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.903469
Title: Deep Reinforcement Learning for Online Optimal Execution Strategies
Title（参考訳）: オンライン最適実行戦略のための深層強化学習
Authors: Alessandro Micheli, Mélodie Monod,
Abstract要約: 本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
参考スコア（独自算出の注目度）: 49.1574468325115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper tackles the challenge of learning non-Markovian optimal execution strategies in dynamic financial markets. We introduce a novel actor-critic algorithm based on Deep Deterministic Policy Gradient (DDPG) to address this issue, with a focus on transient price impact modeled by a general decay kernel. Through numerical experiments with various decay kernels, we show that our algorithm successfully approximates the optimal execution strategy. Additionally, the proposed algorithm demonstrates adaptability to evolving market conditions, where parameters fluctuate over time. Our findings also show that modern reinforcement learning algorithms can provide a solution that reduces the need for frequent and inefficient human intervention in optimal execution tasks.
Abstract（参考訳）: 本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。本稿では,この問題を解決するために,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。各種の崩壊カーネルを用いた数値実験により,本アルゴリズムは最適実行戦略の近似に成功していることを示す。さらに,提案アルゴリズムは,時間とともにパラメータが変動する市場環境への適応性を示す。また, 現代の強化学習アルゴリズムは, 最適実行タスクにおいて, 頻繁かつ非効率な人的介入の必要性を軽減できる。

関連論文リスト

Deep Reinforcement Learning Algorithms for Option Hedging [0.20482269513546458]
動的ヘッジの文脈における8つのDeep Reinforcement Learning (DRL)アルゴリズムの性能を比較した。 MCPGはブラック・スコイルズ・デルタ・ヘッジ・ベースラインを計算予算で上回る唯一のアルゴリズムである。
論文参考訳（メタデータ） (2025-04-07T21:32:14Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
An accelerate Prediction Strategy for Dynamic Multi-Objective Optimization [7.272641346606365]
本稿では,進化的アルゴリズムフレームワークにおける予測戦略の高速化のための新しいアプローチを提案する。本稿では,アルゴリズムの探索動作を予測・調整するために,二階微分を組み込んだ適応予測戦略を提案する。標準DMOPのベンチマーク問題を用いて,提案手法の性能を4つの最先端アルゴリズムと比較した。
論文参考訳（メタデータ） (2024-10-08T08:13:49Z)
Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文参考訳（メタデータ） (2023-06-18T15:50:57Z)
Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。 Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文参考訳（メタデータ） (2022-11-15T03:46:41Z)
High-dimensional Bayesian Optimization Algorithm with Recurrent Neural Network for Disease Control Models in Time Series [1.9371782627708491]
本稿では,リカレントニューラルネットワークを組み合わせた高次元ベイズ最適化アルゴリズムを提案する。提案したRNN-BOアルゴリズムは,低次元空間における最適制御問題を解くことができる。また、RNN層の異なる数の影響や、ソリューションの品質と関連する計算努力のトレードオフに対する訓練のエポックスについても論じる。
論文参考訳（メタデータ） (2022-01-01T08:40:17Z)
PAMELI: A Meta-Algorithm for Computationally Expensive Multi-Objective Optimization Problems [0.0]
提案アルゴリズムは,実モデルのモデルによって定義される一連の代理問題の解法に基づく。また,最適化ランドスケープのための最適なサロゲートモデルとナビゲーション戦略のメタ検索を行う。
論文参考訳（メタデータ） (2021-03-19T11:18:03Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。 GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文参考訳（メタデータ） (2020-02-28T09:28:17Z)
Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文参考訳（メタデータ） (2020-02-13T05:42:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。