論文の概要: AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.18481v1
- Date: Tue, 10 Feb 2026 14:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.60809
- Title: AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models
- Title(参考訳): AlphaForgeBench: 大規模言語モデルによるエンドツーエンドのトレーディング戦略設計のベンチマーク
- Authors: Wentao Zhang, Mingxuan Zhao, Jincheng Gao, Jieshun You, Huaiyu Jia, Yilei Zhao, Bo An, Shuo Sun,
- Abstract要約: リアルタイム取引性能の現在の評価は、重大な障害モードを見落としている:不確実性の下でのシーケンシャルな意思決定における厳しい行動不安定性である。
提案するAlphaForgeBenchは,大規模言語モデル(LLM)を,実行エージェントではなく定量的研究者として再構成する,原則化されたフレームワークである。
- 参考スコア(独自算出の注目度): 23.493646150407116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has led to a surge of financial benchmarks, evolving from static knowledge tests to interactive trading simulations. However, current evaluations of real-time trading performance overlook a critical failure mode: severe behavioral instability in sequential decision-making under uncertainty. We empirically show that LLM-based trading agents exhibit extreme run-to-run variance, inconsistent action sequences even under deterministic decoding, and irrational action flipping across adjacent time steps. These issues stem from stateless autoregressive architectures lacking persistent action memory, as well as sensitivity to continuous-to-discrete action mappings in portfolio allocation. As a result, many existing financial trading benchmarks produce unreliable, non-reproducible, and uninformative evaluations. To address these limitations, we propose AlphaForgeBench, a principled framework that reframes LLMs as quantitative researchers rather than execution agents. Instead of emitting trading actions, LLMs generate executable alpha factors and factor-based strategies grounded in financial reasoning. This design decouples reasoning from execution, enabling fully deterministic and reproducible evaluation while aligning with real-world quantitative research workflows. Experiments across multiple state-of-the-art LLMs show that AlphaForgeBench eliminates execution-induced instability and provides a rigorous benchmark for assessing financial reasoning, strategy formulation, and alpha discovery.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、静的知識テストからインタラクティブなトレーディングシミュレーションへと進化する金融ベンチマークの急増につながった。
しかし、リアルタイム取引性能の現在の評価は、重大な失敗モードを見落としている:不確実性の下でのシーケンシャルな意思決定における厳しい行動不安定性である。
LLMをベースとしたトレーディングエージェントは, 決定論的復号化の下でも, 極端に変動し, 不整合な動作シーケンスを示し, 隣接する時間ステップを横切る不合理な動作を示す。
これらの問題は、永続的なアクションメモリが欠如しているステートレスな自己回帰アーキテクチャと、ポートフォリオアロケーションにおける継続的かつ離散的なアクションマッピングに対する感受性に起因している。
その結果、既存の金融トレーディングベンチマークの多くは、信頼できない、再現できない、非形式的な評価を生み出している。
これらの制約に対処するため,実行エージェントではなく定量的研究者としてLLMを再構成する原則的フレームワークであるAlphaForgeBenchを提案する。
LLMは取引行為を発行する代わりに、財政的な推論に基づいて、実行可能なアルファファクターとファクターベースの戦略を生成する。
この設計は、実行からの推論を分離し、実世界の定量的研究ワークフローと整合しながら、完全に決定論的かつ再現可能な評価を可能にする。
複数の最先端のLCM実験により、AlphaForgeBenchは実行に伴う不安定性を排除し、金銭的推論、戦略定式化、アルファ発見を評価するための厳密なベンチマークを提供する。
関連論文リスト
- Behavioral Consistency Validation for LLM Agents: An Analysis of Trading-Style Switching through Stock-Market Simulation [37.95724732592611]
我々は、金融市場シナリオを用いて、エージェントの戦略変更が金融理論と一致するかどうかをテストする。
本研究は, 長期保存と促進により設定された4つの行動金融ドライバー・アバージョン, ハーディング, 富の分化, 価格の相違を人格特性として運用する。
以上の結果から,最近のLCMのスイッチング動作は,挙動有限性理論と部分的に一致していることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:25:10Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - LiveTradeBench: Seeking Real-World Alpha with Large Language Models [26.976122048323873]
大規模言語モデル(LLM)は、ベンチマーク全体で強力なパフォーマンスを達成する。
これらのテストは静的な設定で行われ、実際のダイナミクスと不確実性が欠如している。
LLMエージェントを現実的で発展途上国で評価するためのライブトレーディング環境であるLiveTradeBenchを紹介する。
論文 参考訳(メタデータ) (2025-11-05T16:47:26Z) - Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。
実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。
我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文 参考訳(メタデータ) (2025-10-02T16:54:57Z) - Deriving Strategic Market Insights with Large Language Models: A Benchmark for Forward Counterfactual Generation [55.2788567621326]
本稿では,FIN-FORCE-FINancial Forward Counterfactual Evaluationを提案する。
FIN-FORCEは金融ニュースの見出しをまとめることで、LLMベースの対実生成を支援する。
これにより、将来の市場展開を探索し、予測するためのスケーラブルで自動化されたソリューションの道を開くことができる。
論文 参考訳(メタデータ) (2025-05-26T02:41:50Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。