論文の概要: Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards
- arxiv url: http://arxiv.org/abs/2502.02619v1
- Date: Tue, 04 Feb 2025 11:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:23:39.392079
- Title: Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards
- Title(参考訳): 深層強化学習によるレグレト最適化ポートフォリオの強化と今後の展望
- Authors: Daniil Karzanov, Rubén Garzón, Mikhail Terekhov, Caglar Gulcehre, Thomas Raffinot, Marcin Detyniecki,
- Abstract要約: 本稿では、PPO(Proximal Policy Optimization)を用いた既存のポートフォリオ戦略を強化するためのエージェントベースの新しいアプローチを提案する。
従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
- 参考スコア(独自算出の注目度): 3.9795751586546766
- License:
- Abstract: This paper introduces a novel agent-based approach for enhancing existing portfolio strategies using Proximal Policy Optimization (PPO). Rather than focusing solely on traditional portfolio construction, our approach aims to improve an already high-performing strategy through dynamic rebalancing driven by PPO and Oracle agents. Our target is to enhance the traditional 60/40 benchmark (60% stocks, 40% bonds) by employing the Regret-based Sharpe reward function. To address the impact of transaction fee frictions and prevent signal loss, we develop a transaction cost scheduler. We introduce a future-looking reward function and employ synthetic data training through a circular block bootstrap method to facilitate the learning of generalizable allocation strategies. We focus on two key evaluation measures: return and maximum drawdown. Given the high stochasticity of financial markets, we train 20 independent agents each period and evaluate their average performance against the benchmark. Our method not only enhances the performance of the existing portfolio strategy through strategic rebalancing but also demonstrates strong results compared to other baselines.
- Abstract(参考訳): 本稿では,PPO(Proximal Policy Optimization)を用いた既存ポートフォリオ戦略の強化のためのエージェントベースアプローチを提案する。
従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
我々の目標は、レグレットベースのシャープ報酬関数を利用することで、従来の60/40ベンチマーク(60%の株式、40%の債券)を強化することです。
取引手数料の摩擦の影響に対処し、信号損失を防止するために、取引コストスケジューラを開発する。
本稿では,将来的な報酬関数を導入し,一般化可能なアロケーション戦略の学習を容易にするために,円ブロックブートストラップ法を用いて合成データトレーニングを利用する。
我々は、リターンと最大引き出しの2つの主要な評価指標に焦点を当てている。
金融市場の確率が高いことから、各期間に20人の独立したエージェントを訓練し、ベンチマークに対する平均的なパフォーマンスを評価する。
本手法は,既存のポートフォリオ戦略を戦略的再バランスによって向上するだけでなく,他の基準よりも強い結果を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-25T12:04:03Z) - An Ensemble Method of Deep Reinforcement Learning for Automated
Cryptocurrency Trading [16.78239969166596]
深層強化学習アルゴリズムにより訓練された貿易戦略の一般化性能を向上させるためのアンサンブル手法を提案する。
提案手法は, 深層強化学習戦略とパッシブ投資戦略のベンチマークと比較し, サンプル外性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:00:09Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization [9.430129571478629]
本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。
提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
論文 参考訳(メタデータ) (2022-12-11T07:35:26Z) - Asset Allocation: From Markowitz to Deep Reinforcement Learning [2.0305676256390934]
資産配分とは、ポートフォリオの資産を常に再分配することでリスクと報酬のバランスをとることを目的とした投資戦略である。
我々は、多くの最適化手法の有効性と信頼性を決定するために、広範囲なベンチマーク研究を行う。
論文 参考訳(メタデータ) (2022-07-14T14:44:04Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z) - Deep Learning for Portfolio Optimization [5.833272638548154]
個々の資産を選択する代わりに、ポートフォリオを形成するために市場指標のETF(Exchange-Traded Funds)を交換します。
我々は,本手法を広範囲のアルゴリズムと比較し,本モデルがテスト期間中に最高の性能を得ることを示す。
論文 参考訳(メタデータ) (2020-05-27T21:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。