Fugu-MT 論文翻訳(概要): QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE

論文の概要: QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE

arxiv url: http://arxiv.org/abs/2409.05144v3
Date: Tue, 17 Jun 2025 09:32:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.03965
Title: QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE
Title（参考訳）: QuantFactor ReINFORCE: 可変結合型ReINFORCEを用いた定常定式アルファ因子のマイニング
Authors: Junjie Zhao, Chengxi Zhang, Min Qin, Peng Yang,
Abstract要約: アルファファクターマイニングのための強力なディープラーニング手法は解釈可能性に欠けており、リスクに敏感な現実市場では受け入れられない。形式的アルファ因子はその解釈可能性に好まれる一方、探索空間は複雑であり、強力な爆発的手法が求められている。近年, 深層強化学習を用いたα因子生成のためのフレームワークが提案されている。
参考スコア（独自算出の注目度）: 5.560011325936085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Alpha factor mining aims to discover investment signals from the historical financial market data, which can be used to predict asset returns and gain excess profits. Powerful deep learning methods for alpha factor mining lack interpretability, making them unacceptable in the risk-sensitive real markets. Formulaic alpha factors are preferred for their interpretability, while the search space is complex and powerful explorative methods are urged. Recently, a promising framework is proposed for generating formulaic alpha factors using deep reinforcement learning, and quickly gained research focuses from both academia and industries. This paper first argues that the originally employed policy training method, i.e., Proximal Policy Optimization (PPO), faces several important issues in the context of alpha factors mining. Herein, a novel reinforcement learning algorithm based on the well-known REINFORCE algorithm is proposed. REINFORCE employs Monte Carlo sampling to estimate the policy gradient-yielding unbiased but high variance estimates. The minimal environmental variability inherent in the underlying state transition function, which adheres to the Dirac distribution, can help alleviate this high variance issue, making REINFORCE algorithm more appropriate than PPO. A new dedicated baseline is designed to theoretically reduce the commonly suffered high variance of REINFORCE. Moreover, the information ratio is introduced as a reward shaping mechanism to encourage the generation of steady alpha factors that can better adapt to changes in market volatility. Evaluations on real assets data indicate the proposed algorithm boosts correlation with returns by 3.83\%, and a stronger ability to obtain excess returns compared to the latest alpha factors mining methods, which meets the theoretical results well.
Abstract（参考訳）: アルファファクターマイニングは、過去の金融市場データから投資シグナルを発見し、資産のリターンを予測し、過剰な利益を得るのに使用できることを目的としている。アルファファクターマイニングのための強力なディープラーニング手法は解釈可能性に欠けており、リスクに敏感な現実市場では受け入れられない。形式的アルファ因子はその解釈可能性に好まれる一方、探索空間は複雑であり、強力な爆発的手法が求められている。近年, 深層強化学習を用いた定式的アルファ因子の生成に期待できる枠組みが提案され, 学術・産業ともに急速に研究が進められている。本稿は、当初採用されていた政策訓練手法であるPPOが、アルファファクタマイニングの文脈においていくつかの重要な問題に直面していることを最初に論じる。本稿では、よく知られたREINFORCEアルゴリズムに基づく新しい強化学習アルゴリズムを提案する。 ReINFORCEはモンテカルロサンプリングを使用して、政策勾配が収まる未偏差のある高分散推定を推定する。ディラック分布に従属する基底状態遷移関数に固有の最小の環境変動は、この高分散問題を緩和し、REINFORCEアルゴリズムをPPOよりも適切にすることができる。新しい専用ベースラインは、理論上苦しむREINFORCEの高分散を減少させるように設計されている。さらに、市場ボラティリティの変化に適応できる安定したアルファ因子の生成を促進するための報酬形成機構として、情報比を導入している。実資産データによる評価は,提案アルゴリズムが提案したリターンとリターンとの相関を3.83倍に向上し,最新のアルファファクターマイニング法と比較して過剰リターンを得る能力が向上したことを示している。

関連論文リスト

Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining [5.560011325936085]
強化学習は、解釈可能で利益の出る投資戦略を作成するために、公式なアルファ因子を採掘する複雑なプロセスの自動化に成功した。既存の方法は、基礎となるマルコフ決定プロセスが与えられたスパース報酬によって妨げられる。そこで,新たな報酬形成手法であるトラジェクトリレベル・リワード(TLRS)を提案する。
論文参考訳（メタデータ） (2025-07-27T13:14:48Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
Navigating the Alpha Jungle: An LLM-Powered MCTS Framework for Formulaic Factor Mining [8.53606484300001]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を統合する新しいフレームワークを提案する。重要な革新は、MCTS探究のガイダンスであり、各候補因子の金銭的バックテストから、豊かで定量的なフィードバックによってである。実世界の株式市場データによる実験結果から, LLMをベースとしたフレームワークは, 予測精度と取引性能に優れたアルファをマイニングすることにより, 既存手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2025-05-16T11:14:17Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Alpha Mining and Enhancing via Warm Start Genetic Programming for Quantitative Investment [3.4196842063159076]
伝統的遺伝プログラミング(GP)は、しばしばストックアルファ因子発見に苦しむ。 GPはランダムな探索よりも,将来性のある領域に注目する方が優れている。
論文参考訳（メタデータ） (2024-12-01T17:13:54Z)
Robot See, Robot Do: Imitation Reward for Noisy Financial Environments [0.0]
本稿では,模倣学習を活用することによって,より新しい,より堅牢な報酬関数を提案する。モデルフリー強化学習アルゴリズムにおいて,再現性(エキスパートの)フィードバックと強化性(エージェントの)フィードバックを統合する。実証的な結果は、この新しいアプローチが従来のベンチマークと比較すると、財務パフォーマンスの指標を改善することを示している。
論文参考訳（メタデータ） (2024-11-13T14:24:47Z)
AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors [14.80394452270726]
本稿では,アルファ因子マイニングと因子組み合わせのための2段階のアルファ生成フレームワークAlphaForgeを提案する。実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。
論文参考訳（メタデータ） (2024-06-26T14:34:37Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning [1.3194391758295114]
本稿では,既存のアルファファクタマイニング手法を探索空間を拡張して拡張する手法を提案する。モデルの性能評価指標として,情報係数 (IC) とランク情報係数 (Rank IC) を用いる。
論文参考訳（メタデータ） (2024-01-05T08:49:13Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Factor Investing with a Deep Multi-Factor Model [123.52358449455231]
我々は、業界中立化と市場中立化モジュールを明確な財務見識をもって取り入れた、新しい深層多要素モデルを開発する。実世界の株式市場データによるテストは、我々の深層多要素モデルの有効性を示している。
論文参考訳（メタデータ） (2022-10-22T14:47:11Z)
An intelligent algorithmic trading based on a risk-return reinforcement learning algorithm [0.0]
本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。 Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
論文参考訳（メタデータ） (2022-08-23T03:20:06Z)
Fuzzy Expert System for Stock Portfolio Selection: An Application to Bombay Stock Exchange [0.0]
ボンベイ証券取引所(BSE)の株式評価と格付けのためにファジィエキスパートシステムモデルが提案されている。このモデルの性能は、最近の株のパフォーマンスと比較すると、短期的な投資期間で十分であることが判明した。
論文参考訳（メタデータ） (2022-04-28T10:01:15Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文参考訳（メタデータ） (2021-06-03T09:50:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。