論文の概要: QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE
- arxiv url: http://arxiv.org/abs/2409.05144v1
- Date: Sun, 8 Sep 2024 15:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:06:48.435518
- Title: QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE
- Title(参考訳): QuantFactor ReINFORCE: 可変結合型ReINFORCEを用いた定常定式アルファ因子のマイニング
- Authors: Junjie Zhao, Chengxi Zhang, Min Qin, Peng Yang,
- Abstract要約: アルファ・ファクター・マイニングの目標は、資産の歴史的金融市場データから投資機会の示唆的なシグナルを発見することである。
近年, 深層強化学習を用いた定式化α因子の生成に期待できる枠組みが提案されている。
- 参考スコア(独自算出の注目度): 5.560011325936085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of alpha factor mining is to discover indicative signals of investment opportunities from the historical financial market data of assets. Deep learning based alpha factor mining methods have shown to be powerful, which, however, lack of the interpretability, making them unacceptable in the risk-sensitive real markets. Alpha factors in formulaic forms are more interpretable and therefore favored by market participants, while the search space is complex and powerful explorative methods are urged. Recently, a promising framework is proposed for generating formulaic alpha factors using deep reinforcement learning, and quickly gained research focuses from both academia and industries. This paper first argues that the originally employed policy training method, i.e., Proximal Policy Optimization (PPO), faces several important issues in the context of alpha factors mining, making it ineffective to explore the search space of the formula. Herein, a novel reinforcement learning based on the well-known REINFORCE algorithm is proposed. Given that the underlying state transition function adheres to the Dirac distribution, the Markov Decision Process within this framework exhibit minimal environmental variability, making REINFORCE algorithm more appropriate than PPO. A new dedicated baseline is designed to theoretically reduce the commonly suffered high variance of REINFORCE. Moreover, the information ratio is introduced as a reward shaping mechanism to encourage the generation of steady alpha factors that can better adapt to changes in market volatility. Experimental evaluations on various real assets data show that the proposed algorithm can increase the correlation with asset returns by 3.83%, and a stronger ability to obtain excess returns compared to the latest alpha factors mining methods, which meets the theoretical results well.
- Abstract(参考訳): アルファ・ファクター・マイニングの目標は、資産の歴史的金融市場データから投資機会の示唆的なシグナルを発見することである。
深層学習に基づくアルファファクターマイニング手法は強力であることが示されているが、解釈可能性に欠けており、リスクに敏感な現実市場では受け入れられない。
公式形式のアルファ因子はより解釈可能であり、市場参加者に好まれる一方、探索空間は複雑で強力な爆発的手法が求められている。
近年, 深層強化学習を用いた定式的アルファ因子の生成に期待できる枠組みが提案され, 学術・産業ともに急速に研究が進められている。
本稿は, 当初採用されていた政策学習手法であるPPOは, アルファファクタマイニングの文脈においていくつかの重要な問題に直面しており, 公式の探索空間を探索する上では有効ではない,と論じる。
本稿では、よく知られたREINFORCEアルゴリズムに基づく新しい強化学習を提案する。
基礎となる状態遷移関数がディラック分布に従属していることを考えると、このフレームワーク内のマルコフ決定過程は環境変動が最小であり、REINFORCEアルゴリズムはPPOよりも適切である。
新しい専用ベースラインは、理論上苦しむREINFORCEの高分散を減少させるように設計されている。
さらに、市場ボラティリティの変化に適応できる安定したアルファ因子の生成を促進するための報酬形成機構として、情報比を導入している。
種々の実資産データに対する実験的評価から,提案アルゴリズムは,提案アルゴリズムの資産収益との相関関係を3.83%向上し,理論的な結果によく合致する最新のアルファファクターマイニング法と比較して,余剰利益を得る能力が強いことが示唆された。
関連論文リスト
- Robot See, Robot Do: Imitation Reward for Noisy Financial Environments [0.0]
本稿では,模倣学習を活用することによって,より新しい,より堅牢な報酬関数を提案する。
モデルフリー強化学習アルゴリズムにおいて,再現性(エキスパートの)フィードバックと強化性(エージェントの)フィードバックを統合する。
実証的な結果は、この新しいアプローチが従来のベンチマークと比較すると、財務パフォーマンスの指標を改善することを示している。
論文 参考訳(メタデータ) (2024-11-13T14:24:47Z) - AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors [14.80394452270726]
本稿では,アルファ因子マイニングと因子組み合わせのための2段階のアルファ生成フレームワークAlphaForgeを提案する。
実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。
論文 参考訳(メタデータ) (2024-06-26T14:34:37Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning [1.3194391758295114]
本稿では,既存のアルファファクタマイニング手法を探索空間を拡張して拡張する手法を提案する。
モデルの性能評価指標として,情報係数 (IC) とランク情報係数 (Rank IC) を用いる。
論文 参考訳(メタデータ) (2024-01-05T08:49:13Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Factor Investing with a Deep Multi-Factor Model [123.52358449455231]
我々は、業界中立化と市場中立化モジュールを明確な財務見識をもって取り入れた、新しい深層多要素モデルを開発する。
実世界の株式市場データによるテストは、我々の深層多要素モデルの有効性を示している。
論文 参考訳(メタデータ) (2022-10-22T14:47:11Z) - An intelligent algorithmic trading based on a risk-return reinforcement
learning algorithm [0.0]
本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。
提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。
Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
論文 参考訳(メタデータ) (2022-08-23T03:20:06Z) - Fuzzy Expert System for Stock Portfolio Selection: An Application to
Bombay Stock Exchange [0.0]
ボンベイ証券取引所(BSE)の株式評価と格付けのためにファジィエキスパートシステムモデルが提案されている。
このモデルの性能は、最近の株のパフォーマンスと比較すると、短期的な投資期間で十分であることが判明した。
論文 参考訳(メタデータ) (2022-04-28T10:01:15Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。