Fugu-MT 論文翻訳(概要): Bridging the gap between Markowitz planning and deep reinforcement learning

論文の概要: Bridging the gap between Markowitz planning and deep reinforcement learning

arxiv url: http://arxiv.org/abs/2010.09108v1
Date: Wed, 30 Sep 2020 04:03:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 23:11:34.764749
Title: Bridging the gap between Markowitz planning and deep reinforcement learning
Title（参考訳）: Markowitz計画と深層強化学習のギャップを埋める
Authors: Eric Benhamou, David Saltiel, Sandrine Ungari, Abhishek Mukhopadhyay
Abstract要約: 本稿では,Deep Reinforcement Learning(深層強化学習)技術がポートフォリオアロケーションに新たな光を放つ方法を示す。 i)DRLは、設計による行動に直接市場条件をマッピングし、環境の変化に適応すべきであり、(ii)DRLは、リスクが分散によって表されるような従来の金融リスクの仮定に依存せず、(iii)DRLは追加データを組み込むことができ、より伝統的な最適化手法とは対照的にマルチインプット方式である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While researchers in the asset management industry have mostly focused on techniques based on financial and risk planning techniques like Markowitz efficient frontier, minimum variance, maximum diversification or equal risk parity, in parallel, another community in machine learning has started working on reinforcement learning and more particularly deep reinforcement learning to solve other decision making problems for challenging task like autonomous driving, robot learning, and on a more conceptual side games solving like Go. This paper aims to bridge the gap between these two approaches by showing Deep Reinforcement Learning (DRL) techniques can shed new lights on portfolio allocation thanks to a more general optimization setting that casts portfolio allocation as an optimal control problem that is not just a one-step optimization, but rather a continuous control optimization with a delayed reward. The advantages are numerous: (i) DRL maps directly market conditions to actions by design and hence should adapt to changing environment, (ii) DRL does not rely on any traditional financial risk assumptions like that risk is represented by variance, (iii) DRL can incorporate additional data and be a multi inputs method as opposed to more traditional optimization methods. We present on an experiment some encouraging results using convolution networks.
Abstract（参考訳）: While researchers in the asset management industry have mostly focused on techniques based on financial and risk planning techniques like Markowitz efficient frontier, minimum variance, maximum diversification or equal risk parity, in parallel, another community in machine learning has started working on reinforcement learning and more particularly deep reinforcement learning to solve other decision making problems for challenging task like autonomous driving, robot learning, and on a more conceptual side games solving like Go. 本稿では, ポートフォリオ割り当てを一段階の最適化ではなく, 遅延した報酬を伴う継続的制御最適化として, ポートフォリオ割り当てを最適制御問題とする, より汎用的な最適化設定により, ポートフォリオ割り当てに新たな光を当てることができることを示すことによって, 両者のギャップを埋めることを目的とする。利点はたくさんあります一 DRLは、直接市場条件を設計による行動にマッピングし、環境の変化に適応させる。 (二)DRLは、リスクがばらつきによって表されるような従来の金融リスクの前提に依存しない。 (iii)DRLは、従来の最適化手法とは対照的に、追加データを組み込むことができ、マルチ入力方式となる。本稿では,畳み込みネットワークを用いた実験を行った。

関連論文リスト

A novel multi-agent dynamic portfolio optimization learning system based on hierarchical deep reinforcement learning [4.495144308458951]
DRLエージェントをアクター批判アルゴリズムと深度関数近似器を用いて訓練すると,DRLエージェントのリスク調整による収益性の改善が重要でないシナリオが生じる可能性がある。本研究では,新しい多エージェント深層強化学習(L)アルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-12T15:00:02Z)
Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。 DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文参考訳（メタデータ） (2024-12-24T08:39:35Z)
Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文参考訳（メタデータ） (2024-12-21T10:18:55Z)
MILLION: A General Multi-Objective Framework with Controllable Risk for Portfolio Management [16.797109778036862]
pOrtfolio maMILLION に対して controLLableIsk を用いた汎用 Multi-objectIve フレームワークを提案する。リスクコントロールフェーズでは,ポートフォリオ適応とポートフォリオ改善という2つの手法を提案する。その結果,提案手法の有効性と有効性を示した。
論文参考訳（メタデータ） (2024-12-04T05:19:34Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
To Switch or Not to Switch? Balanced Policy Switching in Offline Reinforcement Learning [2.951820152291149]
いくつかの決定問題では、政策変更の可能性に直面し、それは無視できないコストを引き起こす。本稿では,利得とスイッチングコストを柔軟かつ原則的にバランスをとるための新しい戦略を提案する。提案するスイッチング式に対する基本特性を確立し,Net Actor-Criticアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-07-01T22:24:31Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文参考訳（メタデータ） (2024-03-25T12:04:03Z)
Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文参考訳（メタデータ） (2024-03-06T04:43:22Z)
A Learnheuristic Approach to A Constrained Multi-Objective Portfolio Optimisation Problem [0.0]
本稿では,多目的ポートフォリオ最適化について検討する。所定のリターン率のリスクを最小化しつつ、期待したリターンを最大化する目的を達成することを目的としている。
論文参考訳（メタデータ） (2023-04-13T17:05:45Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2022-02-22T20:44:04Z)
Deep Reinforcement Learning and Convex Mean-Variance Optimisation for Portfolio Management [0.0]
強化学習(RL)法は明示的な予測に頼らず、多段階決定プロセスに適している。総合的な傾向の異なる経済の3つの市場で実験が行われた。
論文参考訳（メタデータ） (2022-02-13T10:12:09Z)
Deep Risk Model: A Deep Learning Solution for Mining Latent Risk Factors to Improve Covariance Matrix Estimation [8.617532047238461]
ニューラルネットワークによるリスクファクタを効果的に"設計"するためのディープラーニングソリューションを提案する。提案手法は,R2$で測定した説明分散を1.9%以上高めることができ,また,グローバルな最小分散ポートフォリオのリスクを低減することができる。
論文参考訳（メタデータ） (2021-07-12T05:30:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。