論文の概要: A novel multi-agent dynamic portfolio optimization learning system based on hierarchical deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2501.06832v1
- Date: Sun, 12 Jan 2025 15:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:21:09.981514
- Title: A novel multi-agent dynamic portfolio optimization learning system based on hierarchical deep reinforcement learning
- Title(参考訳): 階層的深層強化学習に基づくマルチエージェント動的ポートフォリオ最適化学習システム
- Authors: Ruoyu Sun, Yue Xi, Angelos Stefanidis, Zhengyong Jiang, Jionglong Su,
- Abstract要約: DRLエージェントをアクター批判アルゴリズムと深度関数近似器を用いて訓練すると,DRLエージェントのリスク調整による収益性の改善が重要でないシナリオが生じる可能性がある。
本研究では,新しい多エージェント深層強化学習(L)アルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.495144308458951
- License:
- Abstract: Deep Reinforcement Learning (DRL) has been extensively used to address portfolio optimization problems. The DRL agents acquire knowledge and make decisions through unsupervised interactions with their environment without requiring explicit knowledge of the joint dynamics of portfolio assets. Among these DRL algorithms, the combination of actor-critic algorithms and deep function approximators is the most widely used DRL algorithm. Here, we find that training the DRL agent using the actor-critic algorithm and deep function approximators may lead to scenarios where the improvement in the DRL agent's risk-adjusted profitability is not significant. We propose that such situations primarily arise from the following two problems: sparsity in positive reward and the curse of dimensionality. These limitations prevent DRL agents from comprehensively learning asset price change patterns in the training environment. As a result, the DRL agents cannot explore the dynamic portfolio optimization policy to improve the risk-adjusted profitability in the training process. To address these problems, we propose a novel multi-agent Hierarchical Deep Reinforcement Learning (HDRL) algorithmic framework in this research. Under this framework, the agents work together as a learning system for portfolio optimization. Specifically, by designing an auxiliary agent that works together with the executive agent for optimal policy exploration, the learning system can focus on exploring the policy with higher risk-adjusted return in the action space with positive return and low variance. In this way, we can overcome the issue of the curse of dimensionality and improve the training efficiency in the positive reward sparse environment.
- Abstract(参考訳): ポートフォリオ最適化問題に対処するために、Deep Reinforcement Learning (DRL) が広く使われている。
DRLエージェントは、ポートフォリオ資産のジョイントダイナミクスの明示的な知識を必要とせずに、知識を取得し、彼らの環境との教師なしの相互作用を通じて決定する。
これらのDRLアルゴリズムのうち、アクター・クリティック・アルゴリズムとディープ関数近似器の組み合わせは最も広く使われているDRLアルゴリズムである。
ここでは,アクター・クリティカル・アルゴリズムと深度関数近似器を用いたDRLエージェントのトレーニングにより,DRLエージェントのリスク調整による収益性の改善が重要でないシナリオが生じる可能性がある。
このような状況は、正の報酬における空間性と次元の呪いという2つの問題から生じていると提案する。
これらの制限により、DRLエージェントはトレーニング環境における資産価格変化パターンを包括的に学習することができない。
その結果、DRLエージェントは、トレーニングプロセスにおけるリスク調整による収益性を改善するために、動的ポートフォリオ最適化ポリシーを探索することはできない。
これらの問題に対処するために,本研究では,新しい階層型深層強化学習(HDRL)アルゴリズムフレームワークを提案する。
このフレームワークでは、エージェントはポートフォリオ最適化のための学習システムとして機能する。
具体的には、最適な政策探索を行うための実行エージェントと協調して働く補助エージェントを設計することにより、学習システムは、ポジティブなリターンと低分散を伴うアクション空間におけるリスク調整されたリターンの高いポリシーを探索することに集中することができる。
このようにして、次元の呪いの問題を克服し、正の報奨環境におけるトレーニング効率を向上させることができる。
関連論文リスト
- Combining Transformer based Deep Reinforcement Learning with
Black-Litterman Model for Portfolio Optimization [0.0]
モデルフリーのアルゴリズムとして、深層強化学習(DRL)エージェントは、教師なしの方法で環境と対話することで学習し、決定する。
DRLエージェントとBlack-Litterman (BL)モデルを組み合わせたハイブリッドポートフォリオ最適化モデルを提案する。
我々のDRLエージェントは、様々な比較ポートフォリオ選択戦略と代替DRLフレームワークを、累積リターンで少なくとも42%上回っている。
論文 参考訳(メタデータ) (2024-02-23T16:01:37Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文 参考訳(メタデータ) (2021-10-11T10:13:49Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Bridging the gap between Markowitz planning and deep reinforcement
learning [0.0]
本稿では,Deep Reinforcement Learning(深層強化学習)技術がポートフォリオアロケーションに新たな光を放つ方法を示す。
i)DRLは、設計による行動に直接市場条件をマッピングし、環境の変化に適応すべきであり、(ii)DRLは、リスクが分散によって表されるような従来の金融リスクの仮定に依存せず、(iii)DRLは追加データを組み込むことができ、より伝統的な最適化手法とは対照的にマルチインプット方式である。
論文 参考訳(メタデータ) (2020-09-30T04:03:27Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。