論文の概要: Balancing Profit, Risk, and Sustainability for Portfolio Management
- arxiv url: http://arxiv.org/abs/2207.02134v1
- Date: Mon, 6 Jun 2022 08:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-10 17:37:11.892816
- Title: Balancing Profit, Risk, and Sustainability for Portfolio Management
- Title(参考訳): ポートフォリオ管理における利益、リスク、持続可能性のバランス
- Authors: Charl Maree and Christian W. Omlin
- Abstract要約: 本研究では,リスクを表すシャープ比と持続可能性を表す環境,社会,ガバナンススコア(ESG)を備えた新しいユーティリティ機能を開発する。
連続的な行動空間を許容することで、深いQ-ラーニングアプローチを改善しつつ、MADDPGよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stock portfolio optimization is the process of continuous reallocation of
funds to a selection of stocks. This is a particularly well-suited problem for
reinforcement learning, as daily rewards are compounding and objective
functions may include more than just profit, e.g., risk and sustainability. We
developed a novel utility function with the Sharpe ratio representing risk and
the environmental, social, and governance score (ESG) representing
sustainability. We show that a state-of-the-art policy gradient method -
multi-agent deep deterministic policy gradients (MADDPG) - fails to find the
optimum policy due to flat policy gradients and we therefore replaced gradient
descent with a genetic algorithm for parameter optimization. We show that our
system outperforms MADDPG while improving on deep Q-learning approaches by
allowing for continuous action spaces. Crucially, by incorporating risk and
sustainability criteria in the utility function, we improve on the
state-of-the-art in reinforcement learning for portfolio optimization; risk and
sustainability are essential in any modern trading strategy and we propose a
system that does not merely report these metrics, but that actively optimizes
the portfolio to improve on them.
- Abstract(参考訳): 株式ポートフォリオ最適化(英: Stock portfolio optimization)は、株式選択に対する資金の継続的な再配分のプロセスである。
これは特に強化学習に適した問題であり、日々の報酬は複雑であり、客観的機能には単なる利益、例えばリスクや持続可能性以上のものが含まれる可能性がある。
本研究では,リスクを表すシャープ比と持続可能性を表す環境,社会,ガバナンススコア(ESG)を用いた新しいユーティリティ機能を開発した。
本研究では, パラメータ最適化のための遺伝的アルゴリズムに勾配勾配勾配を置き換えた上で, 平坦な政策勾配による最適政策の発見に失敗することを示す。
本システムは,連続的な動作空間を可能にすることにより,深いq-learningアプローチを改良しつつ,maddpgよりも優れることを示す。
重要なことは、実用機能にリスクとサステナビリティの基準を組み込むことで、ポートフォリオ最適化のための強化学習の最先端を改善し、リスクとサステナビリティは現代の取引戦略において不可欠であり、これらの指標を単に報告するだけでなく、ポートフォリオを改善するために積極的にポートフォリオを最適化するシステムを提案する。
関連論文リスト
- Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization [49.396692286192206]
本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-25T12:04:03Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robust Risk-Aware Reinforcement Learning [0.0]
本稿では、リスク認識性能基準の堅牢な最適化のための強化学習(RL)手法を提案する。
ランク依存予測ユーティリティ(RDEU)を用いて政策の価値を評価する。
モデル不確実性に対する最適ポリシーを確固たるものにするために、我々は、その分布ではなく、ワッサーシュタイン球の内部にある最悪の分布によってポリシーを評価する。
論文 参考訳(メタデータ) (2021-08-23T20:56:34Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文 参考訳(メタデータ) (2021-03-04T04:11:09Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。