論文の概要: Bridging the gap between Markowitz planning and deep reinforcement
learning
- arxiv url: http://arxiv.org/abs/2010.09108v1
- Date: Wed, 30 Sep 2020 04:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:11:34.764749
- Title: Bridging the gap between Markowitz planning and deep reinforcement
learning
- Title(参考訳): Markowitz計画と深層強化学習のギャップを埋める
- Authors: Eric Benhamou, David Saltiel, Sandrine Ungari, Abhishek Mukhopadhyay
- Abstract要約: 本稿では,Deep Reinforcement Learning(深層強化学習)技術がポートフォリオアロケーションに新たな光を放つ方法を示す。
i)DRLは、設計による行動に直接市場条件をマッピングし、環境の変化に適応すべきであり、(ii)DRLは、リスクが分散によって表されるような従来の金融リスクの仮定に依存せず、(iii)DRLは追加データを組み込むことができ、より伝統的な最適化手法とは対照的にマルチインプット方式である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While researchers in the asset management industry have mostly focused on
techniques based on financial and risk planning techniques like Markowitz
efficient frontier, minimum variance, maximum diversification or equal risk
parity, in parallel, another community in machine learning has started working
on reinforcement learning and more particularly deep reinforcement learning to
solve other decision making problems for challenging task like autonomous
driving, robot learning, and on a more conceptual side games solving like Go.
This paper aims to bridge the gap between these two approaches by showing Deep
Reinforcement Learning (DRL) techniques can shed new lights on portfolio
allocation thanks to a more general optimization setting that casts portfolio
allocation as an optimal control problem that is not just a one-step
optimization, but rather a continuous control optimization with a delayed
reward. The advantages are numerous: (i) DRL maps directly market conditions to
actions by design and hence should adapt to changing environment, (ii) DRL does
not rely on any traditional financial risk assumptions like that risk is
represented by variance, (iii) DRL can incorporate additional data and be a
multi inputs method as opposed to more traditional optimization methods. We
present on an experiment some encouraging results using convolution networks.
- Abstract(参考訳): While researchers in the asset management industry have mostly focused on techniques based on financial and risk planning techniques like Markowitz efficient frontier, minimum variance, maximum diversification or equal risk parity, in parallel, another community in machine learning has started working on reinforcement learning and more particularly deep reinforcement learning to solve other decision making problems for challenging task like autonomous driving, robot learning, and on a more conceptual side games solving like Go.
本稿では, ポートフォリオ割り当てを一段階の最適化ではなく, 遅延した報酬を伴う継続的制御最適化として, ポートフォリオ割り当てを最適制御問題とする, より汎用的な最適化設定により, ポートフォリオ割り当てに新たな光を当てることができることを示すことによって, 両者のギャップを埋めることを目的とする。
利点はたくさんあります
一 DRLは、直接市場条件を設計による行動にマッピングし、環境の変化に適応させる。
(二)DRLは、リスクがばらつきによって表されるような従来の金融リスクの前提に依存しない。
(iii)DRLは、従来の最適化手法とは対照的に、追加データを組み込むことができ、マルチ入力方式となる。
本稿では,畳み込みネットワークを用いた実験を行った。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - To Switch or Not to Switch? Balanced Policy Switching in Offline Reinforcement Learning [2.951820152291149]
いくつかの決定問題では、政策変更の可能性に直面し、それは無視できないコストを引き起こす。
本稿では,利得とスイッチングコストを柔軟かつ原則的にバランスをとるための新しい戦略を提案する。
提案するスイッチング式に対する基本特性を確立し,Net Actor-Criticアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-07-01T22:24:31Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-25T12:04:03Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - A Learnheuristic Approach to A Constrained Multi-Objective Portfolio
Optimisation Problem [0.0]
本稿では,多目的ポートフォリオ最適化について検討する。
所定のリターン率のリスクを最小化しつつ、期待したリターンを最大化する目的を達成することを目的としている。
論文 参考訳(メタデータ) (2023-04-13T17:05:45Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-22T20:44:04Z) - Deep Reinforcement Learning and Convex Mean-Variance Optimisation for
Portfolio Management [0.0]
強化学習(RL)法は明示的な予測に頼らず、多段階決定プロセスに適している。
総合的な傾向の異なる経済の3つの市場で実験が行われた。
論文 参考訳(メタデータ) (2022-02-13T10:12:09Z) - Deep Risk Model: A Deep Learning Solution for Mining Latent Risk Factors
to Improve Covariance Matrix Estimation [8.617532047238461]
ニューラルネットワークによるリスクファクタを効果的に"設計"するためのディープラーニングソリューションを提案する。
提案手法は,R2$で測定した説明分散を1.9%以上高めることができ,また,グローバルな最小分散ポートフォリオのリスクを低減することができる。
論文 参考訳(メタデータ) (2021-07-12T05:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。