論文の概要: Bridging the gap between Markowitz planning and deep reinforcement
learning
- arxiv url: http://arxiv.org/abs/2010.09108v1
- Date: Wed, 30 Sep 2020 04:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:11:34.764749
- Title: Bridging the gap between Markowitz planning and deep reinforcement
learning
- Title(参考訳): Markowitz計画と深層強化学習のギャップを埋める
- Authors: Eric Benhamou, David Saltiel, Sandrine Ungari, Abhishek Mukhopadhyay
- Abstract要約: 本稿では,Deep Reinforcement Learning(深層強化学習)技術がポートフォリオアロケーションに新たな光を放つ方法を示す。
i)DRLは、設計による行動に直接市場条件をマッピングし、環境の変化に適応すべきであり、(ii)DRLは、リスクが分散によって表されるような従来の金融リスクの仮定に依存せず、(iii)DRLは追加データを組み込むことができ、より伝統的な最適化手法とは対照的にマルチインプット方式である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While researchers in the asset management industry have mostly focused on
techniques based on financial and risk planning techniques like Markowitz
efficient frontier, minimum variance, maximum diversification or equal risk
parity, in parallel, another community in machine learning has started working
on reinforcement learning and more particularly deep reinforcement learning to
solve other decision making problems for challenging task like autonomous
driving, robot learning, and on a more conceptual side games solving like Go.
This paper aims to bridge the gap between these two approaches by showing Deep
Reinforcement Learning (DRL) techniques can shed new lights on portfolio
allocation thanks to a more general optimization setting that casts portfolio
allocation as an optimal control problem that is not just a one-step
optimization, but rather a continuous control optimization with a delayed
reward. The advantages are numerous: (i) DRL maps directly market conditions to
actions by design and hence should adapt to changing environment, (ii) DRL does
not rely on any traditional financial risk assumptions like that risk is
represented by variance, (iii) DRL can incorporate additional data and be a
multi inputs method as opposed to more traditional optimization methods. We
present on an experiment some encouraging results using convolution networks.
- Abstract(参考訳): While researchers in the asset management industry have mostly focused on techniques based on financial and risk planning techniques like Markowitz efficient frontier, minimum variance, maximum diversification or equal risk parity, in parallel, another community in machine learning has started working on reinforcement learning and more particularly deep reinforcement learning to solve other decision making problems for challenging task like autonomous driving, robot learning, and on a more conceptual side games solving like Go.
本稿では, ポートフォリオ割り当てを一段階の最適化ではなく, 遅延した報酬を伴う継続的制御最適化として, ポートフォリオ割り当てを最適制御問題とする, より汎用的な最適化設定により, ポートフォリオ割り当てに新たな光を当てることができることを示すことによって, 両者のギャップを埋めることを目的とする。
利点はたくさんあります
一 DRLは、直接市場条件を設計による行動にマッピングし、環境の変化に適応させる。
(二)DRLは、リスクがばらつきによって表されるような従来の金融リスクの前提に依存しない。
(iii)DRLは、従来の最適化手法とは対照的に、追加データを組み込むことができ、マルチ入力方式となる。
本稿では,畳み込みネットワークを用いた実験を行った。
関連論文リスト
- A novel multi-agent dynamic portfolio optimization learning system based on hierarchical deep reinforcement learning [4.495144308458951]
DRLエージェントをアクター批判アルゴリズムと深度関数近似器を用いて訓練すると,DRLエージェントのリスク調整による収益性の改善が重要でないシナリオが生じる可能性がある。
本研究では,新しい多エージェント深層強化学習(L)アルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-12T15:00:02Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - MILLION: A General Multi-Objective Framework with Controllable Risk for Portfolio Management [16.797109778036862]
pOrtfolio maMILLION に対して controLLableIsk を用いた汎用 Multi-objectIve フレームワークを提案する。
リスクコントロールフェーズでは,ポートフォリオ適応とポートフォリオ改善という2つの手法を提案する。
その結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2024-12-04T05:19:34Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - To Switch or Not to Switch? Balanced Policy Switching in Offline Reinforcement Learning [2.951820152291149]
いくつかの決定問題では、政策変更の可能性に直面し、それは無視できないコストを引き起こす。
本稿では,利得とスイッチングコストを柔軟かつ原則的にバランスをとるための新しい戦略を提案する。
提案するスイッチング式に対する基本特性を確立し,Net Actor-Criticアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-07-01T22:24:31Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-25T12:04:03Z) - A Learnheuristic Approach to A Constrained Multi-Objective Portfolio
Optimisation Problem [0.0]
本稿では,多目的ポートフォリオ最適化について検討する。
所定のリターン率のリスクを最小化しつつ、期待したリターンを最大化する目的を達成することを目的としている。
論文 参考訳(メタデータ) (2023-04-13T17:05:45Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。