Fugu-MT 論文翻訳(概要): Deep Deterministic Portfolio Optimization

論文の概要: Deep Deterministic Portfolio Optimization

arxiv url: http://arxiv.org/abs/2003.06497v2
Date: Thu, 9 Apr 2020 10:56:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 02:25:02.220726
Title: Deep Deterministic Portfolio Optimization
Title（参考訳）: 深い決定論的ポートフォリオ最適化
Authors: Ayman Chaouki, Stephen Hardiman, Christian Schmidt, Emmanuel S\'eri\'e, and Joachim de Lataillade
Abstract要約: この研究は、概念的には単純だが数学的には非自明なトレーディング環境上で強化学習アルゴリズムをテストすることである。本研究では, 決定論的政策勾配アルゴリズムを深く研究し, このような強化学習エージェントが, 最適取引戦略の本質的特徴を回復できることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Can deep reinforcement learning algorithms be exploited as solvers for optimal trading strategies? The aim of this work is to test reinforcement learning algorithms on conceptually simple, but mathematically non-trivial, trading environments. The environments are chosen such that an optimal or close-to-optimal trading strategy is known. We study the deep deterministic policy gradient algorithm and show that such a reinforcement learning agent can successfully recover the essential features of the optimal trading strategies and achieve close-to-optimal rewards.
Abstract（参考訳）: 深層強化学習アルゴリズムは最適取引戦略の解法として利用できるか? この研究の目的は、概念的に単純だが数学的に非自明な取引環境において強化学習アルゴリズムをテストすることである。最適または最適に近い取引戦略が知られている環境を選択する。決定論的政策勾配アルゴリズムを深く研究し、このような強化学習エージェントが最適取引戦略の本質的特徴を回復し、最適報酬を得られることを示す。

関連論文リスト

Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文参考訳（メタデータ） (2025-06-10T04:25:04Z)
Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文参考訳（メタデータ） (2024-10-17T12:38:08Z)
Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-07T19:52:14Z)
Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文参考訳（メタデータ） (2024-07-16T21:28:03Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Robust Utility Optimization via a GAN Approach [3.74142789780782]
本稿では,堅牢なユーティリティ最適化問題を解決するために,GAN(Generative Adversarial Network)アプローチを提案する。特に、投資家と市場の両方をニューラルネットワーク(NN)でモデル化し、ミニマックスゼロサムゲームでトレーニングする。
論文参考訳（メタデータ） (2024-03-22T14:36:39Z)
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information [4.42532447134568]
本研究では,文脈情報による問題を克服するために2つの手法を用いる。量的市場における戦略的トレーディングを検討するため、我々はCPPI(Constant proportion portfolio Insurance)と呼ばれる初期の金融トレーディング戦略をDDPG(Deep Deterministic Policy gradient)に統合した。実験の結果,両手法が強化学習の進行を加速し,最適解が得られることがわかった。
論文参考訳（メタデータ） (2023-10-01T11:25:20Z)
Reinforcement Learning for Credit Index Option Hedging [2.568904868787359]
本稿では,強化学習を用いたクレジットインデックスオプションの最適ヘッジ戦略の探索に焦点をあてる。実践的なアプローチでは、離散時間、トランザクションコスト、実際の市場データに対するポリシーのテストなど、リアリズムに重点を置いています。
論文参考訳（メタデータ） (2023-07-19T09:03:41Z)
The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文参考訳（メタデータ） (2021-10-06T13:08:36Z)
Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文参考訳（メタデータ） (2021-01-28T05:52:18Z)
Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。 GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文参考訳（メタデータ） (2020-02-28T09:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。