Fugu-MT 論文翻訳(概要): Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning

関連論文リスト

Alpha-R1: Alpha Screening with LLM Reasoning via Reinforcement Learning [28.326583684637853]
信号の崩壊と政権交代は、非定常市場におけるデータ駆動型投資戦略に繰り返し挑戦する。既存の因子ベースの手法は、アルファを数値時系列に還元し、ある因子が経済的に関係しているかどうかを決定する意味論的論理を見渡すのが一般的である。文脈認識型アルファスクリーニングのための強化学習により訓練された8Bパラメータ推論モデルであるAlpha-R1を提案する。
論文参考訳（メタデータ） (2025-12-29T14:50:23Z)
Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文参考訳（メタデータ） (2025-11-16T03:12:40Z)
Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。 i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文参考訳（メタデータ） (2025-10-13T17:57:15Z)
Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。 Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文参考訳（メタデータ） (2025-09-23T17:10:40Z)
From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.51110344832178]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文参考訳（メタデータ） (2025-08-11T01:26:16Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
AlphaEvolve: A coding agent for scientific and algorithmic discovery [63.13852052551106]
我々は,最先端LLMの能力を大幅に向上させる進化的符号化エージェントAlphaEvolveを提案する。 AlphaEvolveはLLMの自律パイプラインを編成し、そのタスクはコードを直接変更することでアルゴリズムを改善することである。本稿では,多くの重要な計算問題に適用することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2025-06-16T06:37:18Z)
Navigating the Alpha Jungle: An LLM-Powered MCTS Framework for Formulaic Factor Mining [8.53606484300001]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を統合する新しいフレームワークを提案する。重要な革新は、MCTS探究のガイダンスであり、各候補因子の金銭的バックテストから、豊かで定量的なフィードバックによってである。実世界の株式市場データによる実験結果から, LLMをベースとしたフレームワークは, 予測精度と取引性能に優れたアルファをマイニングすることにより, 既存手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2025-05-16T11:14:17Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay [43.50447460231601]
我々は,大規模言語モデルとアドホック正規化を統合し,崩壊耐性アルファ因子をマイニングする自律的フレームワークであるAlphaAgentを提案する。 AlphaAgentは、中国CSI 500と米国S&P 500市場で、過去4年間で引き続き重要なアルファ版を提供している。特にAlphaAgentは、アルファ崩壊に対する顕著な抵抗を示し、強力な要因をもたらす可能性を高めている。
論文参考訳（メタデータ） (2025-02-24T02:56:46Z)
Alpha Mining and Enhancing via Warm Start Genetic Programming for Quantitative Investment [3.4196842063159076]
伝統的遺伝プログラミング(GP)は、しばしばストックアルファ因子発見に苦しむ。 GPはランダムな探索よりも,将来性のある領域に注目する方が優れている。
論文参考訳（メタデータ） (2024-12-01T17:13:54Z)
QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE [5.560011325936085]
アルファ・ファクター・マイニングの目標は、資産の歴史的金融市場データから投資機会の示唆的なシグナルを発見することである。近年, 深層強化学習を用いた定式化α因子の生成に期待できる枠組みが提案されている。
論文参考訳（メタデータ） (2024-09-08T15:57:58Z)
AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors [14.80394452270726]
本稿では,アルファ因子マイニングと因子組み合わせのための2段階のアルファ生成フレームワークAlphaForgeを提案する。実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。
論文参考訳（メタデータ） (2024-06-26T14:34:37Z)
$\text{Alpha}^2$: Discovering Logical Formulaic Alphas using Deep Reinforcement Learning [28.491587815128575]
深部強化学習(DRL)を用いたアルファ発見のための新しい枠組みを提案する。 DRLでガイドされた探索アルゴリズムは、潜在的なアルファ結果の値推定に基づいて探索空間をナビゲートする。実世界の株式市場での実証実験は、さまざまな論理的かつ効果的なアルファを識別するtextAlpha2$の能力を実証している。
論文参考訳（メタデータ） (2024-06-24T10:21:29Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文参考訳（メタデータ） (2024-02-18T23:01:28Z)
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文参考訳（メタデータ） (2024-02-09T11:23:14Z)
Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文参考訳（メタデータ） (2023-11-03T06:34:37Z)
Alpha-GPT: Human-AI Interactive Alpha Mining for Quantitative Investment [9.424699345940725]
我々は,人間とAIの相互作用を導入し,新たなアルファマイニングパラダイムを提案する。また,新たな対話型アルファマイニングシステムであるAlpha-GPTを開発した。
論文参考訳（メタデータ） (2023-07-31T16:40:06Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Generating Synergistic Formulaic Alpha Collections via Reinforcement Learning [20.589583396095225]
我々は、相乗的なアルファの集合のマイニングを優先する新しいアルファマイニングフレームワークを提案する。我々のフレームワークは、これまでのアプローチよりも高いリターンを達成することができることを示す。
論文参考訳（メタデータ） (2023-05-25T13:41:07Z)
Alchemy: A structured task distribution for meta-reinforcement learning [52.75769317355963]
本稿では,構造的リッチネスと構造的透明性を組み合わせたメタRL研究のための新しいベンチマークを提案する。 Alchemyは3Dビデオゲームで、エピソードからエピソードまで手続き的に再サンプリングされる潜伏した因果構造を含んでいる。本稿では,アルケミーの強力なRL剤について検討し,その1つについて詳細な分析を行った。
論文参考訳（メタデータ） (2021-02-04T23:40:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning

関連論文リスト