Fugu-MT 論文翻訳(概要): An intelligent algorithmic trading based on a risk-return reinforcement learning algorithm

論文の概要: An intelligent algorithmic trading based on a risk-return reinforcement learning algorithm

arxiv url: http://arxiv.org/abs/2208.10707v1
Date: Tue, 23 Aug 2022 03:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-24 14:02:46.518441
Title: An intelligent algorithmic trading based on a risk-return reinforcement learning algorithm
Title（参考訳）: リスク・リターン強化学習アルゴリズムに基づく知的アルゴリズム取引
Authors: Boyi Jin
Abstract要約: 本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。 Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This scientific paper propose a novel portfolio optimization model using an improved deep reinforcement learning algorithm. The objective function of the optimization model is the weighted sum of the expectation and value at risk(VaR) of portfolio cumulative return. The proposed algorithm is based on actor-critic architecture, in which the main task of critical network is to learn the distribution of portfolio cumulative return using quantile regression, and actor network outputs the optimal portfolio weight by maximizing the objective function mentioned above. Meanwhile, we exploit a linear transformation function to realize asset short selling. Finally, A multi-process method is used, called Ape-x, to accelerate the speed of deep reinforcement learning training. To validate our proposed approach, we conduct backtesting for two representative portfolios and observe that the proposed model in this work is superior to the benchmark strategies.
Abstract（参考訳）: 本稿では,改良深層強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。最適化モデルの目的関数は、ポートフォリオ累積リターンのリスク(var)における期待値と価値の重み付け和である。提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題は、量子回帰を用いてポートフォリオ累積リターンの分布を学習することであり、アクター・ネットワークは上記の目的関数を最大化することで最適なポートフォリオ重みを出力する。一方,資産短期販売を実現するために線形変換関数を利用する。最後に、深層強化学習の高速化のために、ap-xと呼ばれるマルチプロセス法が用いられる。提案手法を検証するために,2つのポートフォリオのバックテストを実施し,提案手法がベンチマーク手法よりも優れていることを確認する。

関連論文リスト

Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。 Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-12-25T06:31:11Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Reinforcement Learning as an Improvement Heuristic for Real-World Production Scheduling [0.0]
1つの有望なアプローチは、RLエージェントを改善として訓練することであり、小さな変更を適用することで反復的に改善される最適以下のソリューションから始まる。本手法を実世界の多目的生産スケジューリング問題に適用する。当社のアプローチを、業界パートナの本当のデータを使って、他のアプローチと比較し、その優れたパフォーマンスを実証しました。
論文参考訳（メタデータ） (2024-09-18T12:48:56Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Adversarial Style Transfer for Robust Policy Optimization in Deep Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-08-29T18:17:35Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。軌道の適切な切り離しが性能向上に成功することを示す。
論文参考訳（メタデータ） (2023-05-07T19:41:57Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Proximal Deterministic Policy Gradient [20.951797549505986]
政治以外の強化学習(RL)アルゴリズムを改善するための2つの手法を提案する。我々は、現在最先端のオフポリシーアルゴリズムでよく使われている2つの値関数を利用して、改善されたアクション値推定を提供する。標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。
論文参考訳（メタデータ） (2020-08-03T10:19:59Z)
Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。 AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文参考訳（メタデータ） (2020-06-16T02:21:49Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。