論文の概要: Deep Deterministic Portfolio Optimization
- arxiv url: http://arxiv.org/abs/2003.06497v2
- Date: Thu, 9 Apr 2020 10:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 02:25:02.220726
- Title: Deep Deterministic Portfolio Optimization
- Title(参考訳): 深い決定論的ポートフォリオ最適化
- Authors: Ayman Chaouki, Stephen Hardiman, Christian Schmidt, Emmanuel
S\'eri\'e, and Joachim de Lataillade
- Abstract要約: この研究は、概念的には単純だが数学的には非自明なトレーディング環境上で強化学習アルゴリズムをテストすることである。
本研究では, 決定論的政策勾配アルゴリズムを深く研究し, このような強化学習エージェントが, 最適取引戦略の本質的特徴を回復できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can deep reinforcement learning algorithms be exploited as solvers for
optimal trading strategies? The aim of this work is to test reinforcement
learning algorithms on conceptually simple, but mathematically non-trivial,
trading environments. The environments are chosen such that an optimal or
close-to-optimal trading strategy is known. We study the deep deterministic
policy gradient algorithm and show that such a reinforcement learning agent can
successfully recover the essential features of the optimal trading strategies
and achieve close-to-optimal rewards.
- Abstract(参考訳): 深層強化学習アルゴリズムは最適取引戦略の解法として利用できるか?
この研究の目的は、概念的に単純だが数学的に非自明な取引環境において強化学習アルゴリズムをテストすることである。
最適または最適に近い取引戦略が知られている環境を選択する。
決定論的政策勾配アルゴリズムを深く研究し、このような強化学習エージェントが最適取引戦略の本質的特徴を回復し、最適報酬を得られることを示す。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。
モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文 参考訳(メタデータ) (2024-07-16T21:28:03Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Robust Utility Optimization via a GAN Approach [3.74142789780782]
本稿では,堅牢なユーティリティ最適化問題を解決するために,GAN(Generative Adversarial Network)アプローチを提案する。
特に、投資家と市場の両方をニューラルネットワーク(NN)でモデル化し、ミニマックスゼロサムゲームでトレーニングする。
論文 参考訳(メタデータ) (2024-03-22T14:36:39Z) - From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement
Learning with Contextual Information [4.42532447134568]
本研究では,文脈情報による問題を克服するために2つの手法を用いる。
量的市場における戦略的トレーディングを検討するため、我々はCPPI(Constant proportion portfolio Insurance)と呼ばれる初期の金融トレーディング戦略をDDPG(Deep Deterministic Policy gradient)に統合した。
実験の結果,両手法が強化学習の進行を加速し,最適解が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-01T11:25:20Z) - Reinforcement Learning for Credit Index Option Hedging [2.568904868787359]
本稿では,強化学習を用いたクレジットインデックスオプションの最適ヘッジ戦略の探索に焦点をあてる。
実践的なアプローチでは、離散時間、トランザクションコスト、実際の市場データに対するポリシーのテストなど、リアリズムに重点を置いています。
論文 参考訳(メタデータ) (2023-07-19T09:03:41Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。