論文の概要: Discrete-Time Mean-Variance Strategy Based on Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.15385v1
- Date: Sun, 24 Dec 2023 02:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:13:18.606119
- Title: Discrete-Time Mean-Variance Strategy Based on Reinforcement Learning
- Title(参考訳): 強化学習に基づく離散時間平均変動戦略
- Authors: Xiangyu Cui, Xun Li, Yun Shi and Si Zhao
- Abstract要約: エントロピーを用いて探索コストを測定し、最適な投資戦略を導出します。
対応する強化学習アルゴリズムを設計する。
本モデルは,実世界のデータ解析において,連続時間モデルよりも優れた適用性を示す。
- 参考スコア(独自算出の注目度): 5.8184275610981615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper studies a discrete-time mean-variance model based on reinforcement
learning. Compared with its continuous-time counterpart in \cite{zhou2020mv},
the discrete-time model makes more general assumptions about the asset's return
distribution. Using entropy to measure the cost of exploration, we derive the
optimal investment strategy, whose density function is also Gaussian type.
Additionally, we design the corresponding reinforcement learning algorithm.
Both simulation experiments and empirical analysis indicate that our
discrete-time model exhibits better applicability when analyzing real-world
data than the continuous-time model.
- Abstract(参考訳): 本稿では,強化学習に基づく離散時間平均分散モデルについて検討する。
\cite{zhou2020mv} の連続時間モデルと比較すると、離散時間モデルは資産の戻り分布についてより一般的な仮定をする。
エントロピーを用いて探査コストを測定することにより,密度関数もガウス型である最適投資戦略を導出する。
さらに,対応する強化学習アルゴリズムを設計する。
シミュレーション実験と実験解析の両方で、我々の離散時間モデルは、実世界のデータを連続時間モデルよりもよく分析できることを示した。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - Efficient Exploration in Continuous-time Model-based Reinforcement
Learning [37.14026153342745]
強化学習アルゴリズムは典型的には離散時間力学を考察するが、基礎となるシステムは時間的に連続していることが多い。
連続時間力学を表すモデルに基づく強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-30T15:04:40Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Time Adaptive Gaussian Model [0.913755431537592]
我々のモデルは、時間的グラフィカルモデルの推論のための最先端手法の一般化である。
時間内にデータポイントをクラスタリングすることでパターン認識を行い、観察された変数間の確率的(そしておそらく因果関係)関係を見つける。
論文 参考訳(メタデータ) (2021-02-02T00:28:14Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。