論文の概要: Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization
- arxiv url: http://arxiv.org/abs/2403.16667v1
- Date: Mon, 25 Mar 2024 12:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-26 14:58:36.582650
- Title: Deep Reinforcement Learning and Mean-Variance Strategies for Responsible Portfolio Optimization
- Title(参考訳): 責任あるポートフォリオ最適化のための深層強化学習と平均変動戦略
- Authors: Fernando Acero, Parisa Zehtabi, Nicolas Marchesotti, Michael Cashmore, Daniele Magazzeni, Manuela Veloso,
- Abstract要約: 本研究では,ESG状態と目的を取り入れたポートフォリオ最適化のための深層強化学習について検討する。
以上の結果から,ポートフォリオアロケーションに対する平均分散アプローチに対して,深層強化学習政策が競争力を発揮する可能性が示唆された。
- 参考スコア(独自算出の注目度): 49.396692286192206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Portfolio optimization involves determining the optimal allocation of portfolio assets in order to maximize a given investment objective. Traditionally, some form of mean-variance optimization is used with the aim of maximizing returns while minimizing risk, however, more recently, deep reinforcement learning formulations have been explored. Increasingly, investors have demonstrated an interest in incorporating ESG objectives when making investment decisions, and modifications to the classical mean-variance optimization framework have been developed. In this work, we study the use of deep reinforcement learning for responsible portfolio optimization, by incorporating ESG states and objectives, and provide comparisons against modified mean-variance approaches. Our results show that deep reinforcement learning policies can provide competitive performance against mean-variance approaches for responsible portfolio allocation across additive and multiplicative utility functions of financial and ESG responsibility objectives.
- Abstract(参考訳): ポートフォリオ最適化は、与えられた投資目標を最大化するために、ポートフォリオ資産の最適配分を決定することを伴う。
従来はリスクを最小化しながらリターンを最大化する目的で平均分散最適化の形式が用いられてきたが、近年では深層強化学習の定式化が検討されている。
投資家は投資決定を行う際にESGの目的を取り入れることに関心を示しており、古典的な平均分散最適化フレームワークの変更が開発されている。
本研究では、ESG状態と目的を組み込んだポートフォリオ最適化のための深層強化学習法について検討し、修正された平均分散アプローチとの比較を行った。
以上の結果から,金融・ESG責任目標の付加的・乗算的ユーティリティ機能にまたがるポートフォリオ割り当てに対する平均分散アプローチに対して,深い強化学習政策が競争力を発揮することが示唆された。
関連論文リスト
- Deep Reinforcement Learning for Optimal Portfolio Allocation: A Comparative Study with Mean-Variance Optimization [4.433030281282368]
Deep Reinforcement Learning (DRL)は、過去の市場データに基づいてモデルフリーエージェントをトレーニングすることで、ポートフォリオ割り当てを最適化する際の有望な結果を示している。
我々の研究は、最適ポートフォリオ割り当てのためのモデルフリーDRLと平均変数ポートフォリオ最適化(MVO)の徹底的な比較である。
バックテストの結果は、シャープ比、最大ドローダウン、絶対リターンなど、多くのメトリクスにわたるDRLエージェントの強い性能を示している。
論文 参考訳(メタデータ) (2026-02-19T05:47:23Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - What Is Preference Optimization Doing, How and Why? [73.78865043839939]
一般的な考え方は、DPOは教師付き学習であり、PPOは強化学習である。
まず、勾配に基づく更新の目標方向を調べ、DPOが安定した目標に従うのに対し、PPOは探索とエクスプロイトのバランスをとる動的目標に従う。
第2に、PO法における3つの重要な要素である正の学習、負の学習、損失再重み付けの役割について検討する。
論文 参考訳(メタデータ) (2025-11-30T08:27:59Z) - Reinforcement Learning for Portfolio Optimization with a Financial Goal and Defined Time Horizons [0.0]
本研究は,G-Learningアルゴリズムを用いて,革新的なポートフォリオ最適化手法を提案する。
目標は、投資家の定期的な貢献を最小限にしつつ、目標日によってポートフォリオの価値を最大化することである。
論文 参考訳(メタデータ) (2025-11-22T14:21:06Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Deep Reinforcement Learning for Investor-Specific Portfolio Optimization: A Volatility-Guided Asset Selection Approach [2.2835610890984164]
本研究では,投資家のリスクプロファイルに基づいてポートフォリオを動的に構築するボラティリティ誘導型ポートフォリオ最適化フレームワークを提案する。
提案手法の有効性はダウ30ドル指数の株を用いて確立された。
論文 参考訳(メタデータ) (2025-04-20T10:17:37Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Decision-informed Neural Networks with Large Language Model Integration for Portfolio Optimization [29.30269598267018]
本稿では,ポートフォリオ最適化における予測と意思決定品質の重大な相違について論じる。
我々は,大規模言語モデル(LLM)の表現力を投資決定に活用する。
S&P100とDOW30データセットの実験から、私たちのモデルは最先端のディープラーニングモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-02T15:45:21Z) - Quantum-Inspired Portfolio Optimization In The QUBO Framework [0.0]
最適混合資産の選択を目的としたポートフォリオ最適化について,量子インスパイアされた最適化手法を提案する。
本研究は、資産配分とポートフォリオ管理に有用なツールとしての可能性を示した、金融における量子インスパイアされた技術に関する文献の増大に寄与する。
論文 参考訳(メタデータ) (2024-10-08T11:36:43Z) - Anatomy of Machines for Markowitz: Decision-Focused Learning for Mean-Variance Portfolio Optimization [27.791742749950203]
意思決定学習は、予測と最適化を統合して意思決定結果を改善する。
MSEは全ての資産のエラーを等しく扱うが、DFLはどのように異なる資産のエラーを減らせるのか?
本研究は,MVOにおける意思決定を最適化するために,DFLがストックリターン予測モデルをどのように調整するかを検討することを目的とする。
論文 参考訳(メタデータ) (2024-09-15T10:37:11Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Causal Inference on Investment Constraints and Non-stationarity in
Dynamic Portfolio Optimization through Reinforcement Learning [0.0]
我々は,強化学習技術を用いた動的資産配分投資戦略を開発した。
我々は、金融時系列データの非定常性を強化学習アルゴリズムに組み込むという重要な課題に対処してきた。
投資戦略における強化学習の適用は、最適化問題を柔軟に設定する際、顕著な利点をもたらす。
論文 参考訳(メタデータ) (2023-11-08T07:55:51Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Bayesian Optimization of ESG Financial Investments [0.0]
ESG (Economic, Social and Governance) の基準は金融においてより重要になっている。
本稿では,数理モデリングとESGとファイナンスを組み合わせた。
論文 参考訳(メタデータ) (2023-02-10T15:17:36Z) - Asset Allocation: From Markowitz to Deep Reinforcement Learning [2.0305676256390934]
資産配分とは、ポートフォリオの資産を常に再分配することでリスクと報酬のバランスをとることを目的とした投資戦略である。
我々は、多くの最適化手法の有効性と信頼性を決定するために、広範囲なベンチマーク研究を行う。
論文 参考訳(メタデータ) (2022-07-14T14:44:04Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。