論文の概要: BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting
- arxiv url: http://arxiv.org/abs/2605.17937v1
- Date: Mon, 18 May 2026 06:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.932197
- Title: BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting
- Title(参考訳): BacktestBench: 定量的戦略バックテストを自動化するための大規模言語モデルのベンチマーク
- Authors: Zhensheng Wang, Wenmian Yang, Qingtai Wu, Lequan Ma, Yiquan Zhang, Weijia Jia,
- Abstract要約: BacktestBenchは、自動量的バックテストのための最初の大規模ベンチマークである。
4つのタスクカテゴリ(メトリクス計算、ティッカー選択、戦略選択、パラメータ確認)の18,246の厳密な注釈付き質問応答ペアで構成されている。
また、自然言語戦略を再現可能なバックテストに変換する堅牢なマルチエージェントベースラインであるAutoBacktestを提案する。
- 参考スコア(独自算出の注目度): 8.868573769249842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantitative backtesting is essential for evaluating trading strategies but remains hampered by high technical barriers and limited scalability. While Large Language Models (LLMs) offer a transformative path to automate this complex, interdisciplinary workflow through advanced code generation, tool usage, and agentic planning, the practical realization is significantly challenged by the current lack of a large-scale benchmark dedicated to automated quantitative backtesting, which hinders progress in this field. To bridge this critical gap, we introduce BacktestBench, the first large-scale benchmark for automated quantitative backtesting. Built from over 6 million real market records, it comprises 18,246 meticulously annotated question-answering pairs across four task categories: metrics calculation, ticker selection, strategy selection, and parameter confirmation. We also propose AutoBacktest, a robust multi-agent baseline that translates natural language strategies into reproducible backtests by coordinating a Summarizer for semantic factor extraction, a Retriever for validated SQL generation, and a Coder for Python backtesting implementation. Our evaluation on 23 mainstream LLMs, complemented by targeted ablations, identifies key factors that influence end-to-end performance and highlights the importance of grounded verification and standardized indicator representations.
- Abstract(参考訳): 量的バックテストは、トレーディング戦略を評価する上で不可欠だが、高い技術的障壁と限られたスケーラビリティによって妨げられている。
大規模言語モデル(LLM)は、先進的なコード生成、ツール使用、エージェント計画を通じて、この複雑で学際的なワークフローを自動化するための変革的なパスを提供するが、この実践的な現実化は、この分野での進歩を妨げる、自動量的バックテスト専用の大規模なベンチマークが現在欠如していることによって、大きな課題となっている。
この重要なギャップを埋めるために、自動量的バックテストのための最初の大規模ベンチマークであるBacktestBenchを紹介します。
600万以上の実際の市場記録から構築され、メトリクスの計算、ティッカーの選択、戦略の選択、パラメータの確認という4つのタスクカテゴリの、18,246の厳密な注釈付き質問応答ペアで構成されている。
また,自然言語戦略を再現可能なバックテストに変換する,堅牢なマルチエージェントベースラインであるAutoBacktestを提案し,セマンティックファクタ抽出のためのSummarizer,検証済みSQL生成のためのRetriever,Pythonバックテスト実装のためのCoderを提案する。
目的達成によって補完される23のLLMに対する評価では、エンドツーエンドのパフォーマンスに影響を及ぼす重要な要因を特定し、基礎的検証と標準化された指標表現の重要性を強調している。
関連論文リスト
- Agent psychometrics: Task-level performance prediction in agentic coding benchmarks [24.348135523715815]
本稿では,エージェントプログラミング体制に合わせて,個々のタスクにおける成功や失敗を予測する枠組みを提案する。
我々のアプローチは、イシューステートメント、リポジトリコンテキスト、ソリューション、テストケースなど、タスクから抽出された豊富な機能を備えたアイテム応答理論(IRT)を拡張します。
論文 参考訳(メタデータ) (2026-04-01T07:59:59Z) - Generative Active Testing: Efficient LLM Evaluation via Proxy Task Adaptation [6.370860526262166]
アクティブなサンプル選択のための既存のフレームワークは、生成的質問回答タスクを限定的にサポートする。
本稿では,Large Language Models (LLM) を利用した不確実性を考慮したGAT(Generative Active Testing)を提案する。
我々のゼロショット取得機能は従来のサンプリングベースラインに比べて40%の誤差を低減し、コスト効率のよいモデルベンチマークのためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-26T22:03:51Z) - Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead [15.43943391801509]
単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
論文 参考訳(メタデータ) (2025-11-26T13:30:11Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。