Fugu-MT 論文翻訳(概要): QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE

論文の概要: QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE

arxiv url: http://arxiv.org/abs/2409.05144v1
Date: Sun, 8 Sep 2024 15:57:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 19:06:48.435518
Title: QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE
Title（参考訳）: QuantFactor ReINFORCE: 可変結合型ReINFORCEを用いた定常定式アルファ因子のマイニング
Authors: Junjie Zhao, Chengxi Zhang, Min Qin, Peng Yang,
Abstract要約: アルファ・ファクター・マイニングの目標は、資産の歴史的金融市場データから投資機会の示唆的なシグナルを発見することである。近年, 深層強化学習を用いた定式化α因子の生成に期待できる枠組みが提案されている。
参考スコア（独自算出の注目度）: 5.560011325936085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of alpha factor mining is to discover indicative signals of investment opportunities from the historical financial market data of assets. Deep learning based alpha factor mining methods have shown to be powerful, which, however, lack of the interpretability, making them unacceptable in the risk-sensitive real markets. Alpha factors in formulaic forms are more interpretable and therefore favored by market participants, while the search space is complex and powerful explorative methods are urged. Recently, a promising framework is proposed for generating formulaic alpha factors using deep reinforcement learning, and quickly gained research focuses from both academia and industries. This paper first argues that the originally employed policy training method, i.e., Proximal Policy Optimization (PPO), faces several important issues in the context of alpha factors mining, making it ineffective to explore the search space of the formula. Herein, a novel reinforcement learning based on the well-known REINFORCE algorithm is proposed. Given that the underlying state transition function adheres to the Dirac distribution, the Markov Decision Process within this framework exhibit minimal environmental variability, making REINFORCE algorithm more appropriate than PPO. A new dedicated baseline is designed to theoretically reduce the commonly suffered high variance of REINFORCE. Moreover, the information ratio is introduced as a reward shaping mechanism to encourage the generation of steady alpha factors that can better adapt to changes in market volatility. Experimental evaluations on various real assets data show that the proposed algorithm can increase the correlation with asset returns by 3.83%, and a stronger ability to obtain excess returns compared to the latest alpha factors mining methods, which meets the theoretical results well.
Abstract（参考訳）: アルファ・ファクター・マイニングの目標は、資産の歴史的金融市場データから投資機会の示唆的なシグナルを発見することである。深層学習に基づくアルファファクターマイニング手法は強力であることが示されているが、解釈可能性に欠けており、リスクに敏感な現実市場では受け入れられない。公式形式のアルファ因子はより解釈可能であり、市場参加者に好まれる一方、探索空間は複雑で強力な爆発的手法が求められている。近年, 深層強化学習を用いた定式的アルファ因子の生成に期待できる枠組みが提案され, 学術・産業ともに急速に研究が進められている。本稿は, 当初採用されていた政策学習手法であるPPOは, アルファファクタマイニングの文脈においていくつかの重要な問題に直面しており, 公式の探索空間を探索する上では有効ではない,と論じる。本稿では、よく知られたREINFORCEアルゴリズムに基づく新しい強化学習を提案する。基礎となる状態遷移関数がディラック分布に従属していることを考えると、このフレームワーク内のマルコフ決定過程は環境変動が最小であり、REINFORCEアルゴリズムはPPOよりも適切である。新しい専用ベースラインは、理論上苦しむREINFORCEの高分散を減少させるように設計されている。さらに、市場ボラティリティの変化に適応できる安定したアルファ因子の生成を促進するための報酬形成機構として、情報比を導入している。種々の実資産データに対する実験的評価から,提案アルゴリズムは,提案アルゴリズムの資産収益との相関関係を3.83%向上し,理論的な結果によく合致する最新のアルファファクターマイニング法と比較して,余剰利益を得る能力が強いことが示唆された。

関連論文リスト

Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining [5.560011325936085]
強化学習は、解釈可能で利益の出る投資戦略を作成するために、公式なアルファ因子を採掘する複雑なプロセスの自動化に成功した。既存の方法は、基礎となるマルコフ決定プロセスが与えられたスパース報酬によって妨げられる。そこで,新たな報酬形成手法であるトラジェクトリレベル・リワード(TLRS)を提案する。
論文参考訳（メタデータ） (2025-07-27T13:14:48Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
Navigating the Alpha Jungle: An LLM-Powered MCTS Framework for Formulaic Factor Mining [8.53606484300001]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を統合する新しいフレームワークを提案する。重要な革新は、MCTS探究のガイダンスであり、各候補因子の金銭的バックテストから、豊かで定量的なフィードバックによってである。実世界の株式市場データによる実験結果から, LLMをベースとしたフレームワークは, 予測精度と取引性能に優れたアルファをマイニングすることにより, 既存手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2025-05-16T11:14:17Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Alpha Mining and Enhancing via Warm Start Genetic Programming for Quantitative Investment [3.4196842063159076]
伝統的遺伝プログラミング(GP)は、しばしばストックアルファ因子発見に苦しむ。 GPはランダムな探索よりも,将来性のある領域に注目する方が優れている。
論文参考訳（メタデータ） (2024-12-01T17:13:54Z)
Robot See, Robot Do: Imitation Reward for Noisy Financial Environments [0.0]
本稿では,模倣学習を活用することによって,より新しい,より堅牢な報酬関数を提案する。モデルフリー強化学習アルゴリズムにおいて,再現性(エキスパートの)フィードバックと強化性(エージェントの)フィードバックを統合する。実証的な結果は、この新しいアプローチが従来のベンチマークと比較すると、財務パフォーマンスの指標を改善することを示している。
論文参考訳（メタデータ） (2024-11-13T14:24:47Z)
AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors [14.80394452270726]
本稿では,アルファ因子マイニングと因子組み合わせのための2段階のアルファ生成フレームワークAlphaForgeを提案する。実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。
論文参考訳（メタデータ） (2024-06-26T14:34:37Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning [1.3194391758295114]
本稿では,既存のアルファファクタマイニング手法を探索空間を拡張して拡張する手法を提案する。モデルの性能評価指標として,情報係数 (IC) とランク情報係数 (Rank IC) を用いる。
論文参考訳（メタデータ） (2024-01-05T08:49:13Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Factor Investing with a Deep Multi-Factor Model [123.52358449455231]
我々は、業界中立化と市場中立化モジュールを明確な財務見識をもって取り入れた、新しい深層多要素モデルを開発する。実世界の株式市場データによるテストは、我々の深層多要素モデルの有効性を示している。
論文参考訳（メタデータ） (2022-10-22T14:47:11Z)
An intelligent algorithmic trading based on a risk-return reinforcement learning algorithm [0.0]
本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。 Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
論文参考訳（メタデータ） (2022-08-23T03:20:06Z)
Fuzzy Expert System for Stock Portfolio Selection: An Application to Bombay Stock Exchange [0.0]
ボンベイ証券取引所(BSE)の株式評価と格付けのためにファジィエキスパートシステムモデルが提案されている。このモデルの性能は、最近の株のパフォーマンスと比較すると、短期的な投資期間で十分であることが判明した。
論文参考訳（メタデータ） (2022-04-28T10:01:15Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文参考訳（メタデータ） (2021-06-03T09:50:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。