論文の概要: Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining
- arxiv url: http://arxiv.org/abs/2507.20263v1
- Date: Sun, 27 Jul 2025 13:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.363633
- Title: Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining
- Title(参考訳): エキスパートファクターからの学習:フォーミュラアルファマイニングのための軌道レベルの逆方向整形
- Authors: Junjie Zhao, Chengxi Zhang, Chenkai Wang, Peng Yang,
- Abstract要約: 強化学習は、解釈可能で利益の出る投資戦略を作成するために、公式なアルファ因子を採掘する複雑なプロセスの自動化に成功した。
既存の方法は、基礎となるマルコフ決定プロセスが与えられたスパース報酬によって妨げられる。
そこで,新たな報酬形成手法であるトラジェクトリレベル・リワード(TLRS)を提案する。
- 参考スコア(独自算出の注目度): 5.560011325936085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has successfully automated the complex process of mining formulaic alpha factors, for creating interpretable and profitable investment strategies. However, existing methods are hampered by the sparse rewards given the underlying Markov Decision Process. This inefficiency limits the exploration of the vast symbolic search space and destabilizes the training process. To address this, Trajectory-level Reward Shaping (TLRS), a novel reward shaping method, is proposed. TLRS provides dense, intermediate rewards by measuring the subsequence-level similarity between partially generated expressions and a set of expert-designed formulas. Furthermore, a reward centering mechanism is introduced to reduce training variance. Extensive experiments on six major Chinese and U.S. stock indices show that TLRS significantly improves the predictive power of mined factors, boosting the Rank Information Coefficient by 9.29% over existing potential-based shaping algorithms. Notably, TLRS achieves a major leap in computational efficiency by reducing its time complexity with respect to the feature dimension from linear to constant, which is a significant improvement over distance-based baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、論理的アルファ因子をマイニングする複雑なプロセスの自動化に成功し、解釈可能で収益性の高い投資戦略を生み出した。
しかし、既存の手法はマルコフ決定過程を基礎とするスパース報酬によって妨げられる。
この非効率性は、巨大な記号探索空間の探索を制限し、訓練プロセスを不安定にする。
そこで,新たな報酬形成手法であるトラジェクトリレベルリワードシェーピング(TLRS)を提案する。
TLRSは、部分的に生成された式と専門家が設計した一連の式の間の列レベルの類似度を測定することで、密度の高い中間報酬を提供する。
さらに、トレーニングのばらつきを低減するために報奨センタリング機構を導入する。
6つの中国と米国の主要株価指数に関する大規模な実験は、TLRSが採掘された要因の予測能力を大幅に改善し、既存の潜在的な形状アルゴリズムよりもランク情報係数を9.29%向上させたことを示している。
特に、TLRSは、距離ベースラインよりも大幅に改善された特徴次元から定数への時間的複雑さを減らし、計算効率の大きな飛躍を達成している。
関連論文リスト
- Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.807927649100805]
大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。
RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。
固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。
i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - Navigating the Alpha Jungle: An LLM-Powered MCTS Framework for Formulaic Factor Mining [8.53606484300001]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を統合する新しいフレームワークを提案する。
重要な革新は、MCTS探究のガイダンスであり、各候補因子の金銭的バックテストから、豊かで定量的なフィードバックによってである。
実世界の株式市場データによる実験結果から, LLMをベースとしたフレームワークは, 予測精度と取引性能に優れたアルファをマイニングすることにより, 既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-16T11:14:17Z) - Rethinking LLM Advancement: Compute-Dependent and Independent Paths to Progress [10.461430685627857]
本研究は,大規模言語モデルが,計算制約環境におけるアルゴリズム的革新によって進展するか否かを評価する。
本稿では,計算に依存しないイノベーションから高い計算量で不均質な利益をもたらす計算依存のイノベーションを区別する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:26:17Z) - RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs [0.0]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための強力なフレームワークとして登場した。
彼らのパフォーマンスは、トレーニングポイントの選択に使われる戦略に大きく依存しています。
RL-PINN(RL-PINN)は,1ラウンドのサンプリングだけで効率的なトレーニングを可能にする強化学習駆動型適応サンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-04-17T13:50:55Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE [5.560011325936085]
アルファファクターマイニングのための強力なディープラーニング手法は解釈可能性に欠けており、リスクに敏感な現実市場では受け入れられない。
形式的アルファ因子はその解釈可能性に好まれる一方、探索空間は複雑であり、強力な爆発的手法が求められている。
近年, 深層強化学習を用いたα因子生成のためのフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-09-08T15:57:58Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。