論文の概要: Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards
- arxiv url: http://arxiv.org/abs/2502.02619v1
- Date: Tue, 04 Feb 2025 11:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 16:28:50.80724
- Title: Regret-Optimized Portfolio Enhancement through Deep Reinforcement Learning and Future Looking Rewards
- Title(参考訳): 深層強化学習によるレグレト最適化ポートフォリオの強化と今後の展望
- Authors: Daniil Karzanov, Rubén Garzón, Mikhail Terekhov, Caglar Gulcehre, Thomas Raffinot, Marcin Detyniecki,
- Abstract要約: 本稿では、PPO(Proximal Policy Optimization)を用いた既存のポートフォリオ戦略を強化するためのエージェントベースの新しいアプローチを提案する。
従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
- 参考スコア(独自算出の注目度): 3.9795751586546766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel agent-based approach for enhancing existing portfolio strategies using Proximal Policy Optimization (PPO). Rather than focusing solely on traditional portfolio construction, our approach aims to improve an already high-performing strategy through dynamic rebalancing driven by PPO and Oracle agents. Our target is to enhance the traditional 60/40 benchmark (60% stocks, 40% bonds) by employing the Regret-based Sharpe reward function. To address the impact of transaction fee frictions and prevent signal loss, we develop a transaction cost scheduler. We introduce a future-looking reward function and employ synthetic data training through a circular block bootstrap method to facilitate the learning of generalizable allocation strategies. We focus on two key evaluation measures: return and maximum drawdown. Given the high stochasticity of financial markets, we train 20 independent agents each period and evaluate their average performance against the benchmark. Our method not only enhances the performance of the existing portfolio strategy through strategic rebalancing but also demonstrates strong results compared to other baselines.
- Abstract(参考訳): 本稿では,PPO(Proximal Policy Optimization)を用いた既存ポートフォリオ戦略の強化のためのエージェントベースアプローチを提案する。
従来のポートフォリオ構築にのみ焦点をあてるのではなく、当社のアプローチは、PPOとOracleエージェントによって駆動される動的リバランスを通じて、すでに高性能な戦略を改善することを目的としています。
我々の目標は、レグレットベースのシャープ報酬関数を利用することで、従来の60/40ベンチマーク(60%の株式、40%の債券)を強化することです。
取引手数料の摩擦の影響に対処し、信号損失を防止するために、取引コストスケジューラを開発する。
本稿では,将来的な報酬関数を導入し,一般化可能なアロケーション戦略の学習を容易にするために,円ブロックブートストラップ法を用いて合成データトレーニングを利用する。
我々は、リターンと最大引き出しの2つの主要な評価指標に焦点を当てている。
金融市場の確率が高いことから、各期間に20人の独立したエージェントを訓練し、ベンチマークに対する平均的なパフォーマンスを評価する。
本手法は,既存のポートフォリオ戦略を戦略的再バランスによって向上するだけでなく,他の基準よりも強い結果を示す。
関連論文リスト
- DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Quantum-Inspired Portfolio Optimization In The QUBO Framework [0.0]
最適混合資産の選択を目的としたポートフォリオ最適化について,量子インスパイアされた最適化手法を提案する。
本研究は、資産配分とポートフォリオ管理に有用なツールとしての可能性を示した、金融における量子インスパイアされた技術に関する文献の増大に寄与する。
論文 参考訳(メタデータ) (2024-10-08T11:36:43Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-25T12:04:03Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Hierarchical Deep Reinforcement Learning for VWAP Strategy Optimization [9.430129571478629]
本稿では,市場パターンを把握し,時間スケールの異なる命令を実行するための,深層学習と階層型強化学習アーキテクチャを提案する。
提案手法は,VWAPスリップにおけるベースラインよりも高い性能を示し,平均コストは,最適ベースラインと比較して1.16塩基ポイントである。
論文 参考訳(メタデータ) (2022-12-11T07:35:26Z) - Asset Allocation: From Markowitz to Deep Reinforcement Learning [2.0305676256390934]
資産配分とは、ポートフォリオの資産を常に再分配することでリスクと報酬のバランスをとることを目的とした投資戦略である。
我々は、多くの最適化手法の有効性と信頼性を決定するために、広範囲なベンチマーク研究を行う。
論文 参考訳(メタデータ) (2022-07-14T14:44:04Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Deep Reinforcement Learning for Long-Short Portfolio Optimization [7.131902599861306]
本稿では,実際の取引ルールに適合する短売制のポートフォリオ管理フレームワークであるDeep Reinforcement Learning (DRL)を構築した。
鍵となるイノベーションは、長期にわたるトランザクションの動的進化を考慮に入れた、継続的取引における包括的な短期販売メカニズムの開発である。
従来のアプローチと比較して、このモデルはリスク調整されたリターンを向上し、最大損失を低減します。
論文 参考訳(メタデータ) (2020-12-26T16:25:20Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z) - Deep Learning for Portfolio Optimization [5.833272638548154]
個々の資産を選択する代わりに、ポートフォリオを形成するために市場指標のETF(Exchange-Traded Funds)を交換します。
我々は,本手法を広範囲のアルゴリズムと比較し,本モデルがテスト期間中に最高の性能を得ることを示す。
論文 参考訳(メタデータ) (2020-05-27T21:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。