論文の概要: QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies
- arxiv url: http://arxiv.org/abs/2604.15151v1
- Date: Thu, 16 Apr 2026 15:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.984659
- Title: QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies
- Title(参考訳): QuantCode-Bench: 実行可能なアルゴリズムトレーディング戦略を生成するための大規模言語モデルの能力を評価するベンチマーク
- Authors: Alexey Khoroshilov, Alexey Chernysh, Orkhan Ekhtibarov, Nini Kamkia, Dmitry Zmitrovich,
- Abstract要約: 我々は,Backtrader フレームワークの戦略を生成する上で,現代の LLM の体系的評価のためのベンチマークである QuantCode-Bench を提案する。
現在のモデルの主な制限は構文ではなく、トレーディングロジックの適切な運用化、適切なAPI使用、タスクセマンティクスへの準拠である。
- 参考スコア(独自算出の注目度): 0.04660328753262074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated strong performance on general-purpose programming tasks, yet their ability to generate executable algorithmic trading strategies remains underexplored. Unlike standard code benchmarks, trading-strategy generation requires simultaneous mastery of domain-specific financial logic, knowledge of a specialized API, and the ability to produce code that is not only syntactically correct but also leads to actual trades on historical data. In this work, we present QuantCode-Bench, a benchmark for the systematic evaluation of modern LLMs in generating strategies for the Backtrader framework from textual descriptions in English. The benchmark contains 400 tasks of varying difficulty collected from Reddit, TradingView, StackExchange, GitHub, and synthetic sources. Evaluation is conducted through a multi-stage pipeline that checks syntactic correctness, successful backtest execution, the presence of trades, and semantic alignment with the task description using an LLM judge. We compare state-of-the-art models in two settings: single-turn, where the strategy must be generated correctly on the first attempt, and agentic multi-turn, where the model receives iterative feedback and may repair its errors. We analyze the failure modes across different stages of the pipeline and show that the main limitations of current models are not related to syntax, but rather to the correct operationalization of trading logic, proper API usage, and adherence to task semantics. These findings suggest that trading strategy generation constitutes a distinct class of domain-specific code generation tasks in which success requires not only technical correctness, but also alignment between natural-language descriptions, financial logic, and the observable behavior of the strategy on data.
- Abstract(参考訳): 大規模言語モデルは汎用プログラミングタスクにおいて高い性能を示してきたが、実行可能なアルゴリズムトレーディング戦略を生成する能力はいまだ探索されていない。
標準的なコードベンチマークとは異なり、トレーディングストラテジー生成には、ドメイン固有の財務ロジックの同時習得、専門的なAPIの知識、構文的に正しいだけでなく、歴史的なデータに関する実際の取引につながるコードを生成する能力が必要である。
本稿では,現代LLMの体系的評価のためのベンチマークであるQuantCode-Benchを紹介する。
このベンチマークには、Reddit、TradingView、StackExchange、GitHub、および合成ソースから収集されたさまざまな困難を伴う400のタスクが含まれている。
評価は,構文的正確性,バックテストの実行成功,取引の有無,LLM判定器を用いたタスク記述とのセマンティックアライメントをチェックする多段階パイプラインを通じて行われる。
まず,1回の試行で戦略を正しく生成しなければならないシングルターンと,反復的なフィードバックを受け取り,エラーを修復するエージェント的マルチターンの2つの設定で,最先端のモデルを比較した。
パイプラインのさまざまなステージにわたる障害モードを分析し、現在のモデルの主な制限が構文ではなく、トレーディングロジックの適切な運用化、適切なAPI使用、タスクセマンティクスへの準拠であることを示す。
これらの結果から, 取引戦略生成は, 技術的正確性だけでなく, 自然言語記述, 財務論理, データ上の戦略の可観測行動の整合性も要求される, ドメイン固有のコード生成タスクの異なるクラスを構成することが示唆された。
関連論文リスト
- SysTradeBench: An Iterative Build-Test-Patch Benchmark for Strategy-to-Code Trading Systems with Drift-Aware Diagnostics [25.854191624941677]
我々はSysTradeBenchを紹介した。SysTradeBenchは、ストラテジ-コードトレーディングシステムのベンチマークのための監査可能なベンチマークである。
サンドボックス化されたハーネスは、決定論とアンチ推論チェックを実行し、ルールドリフトを検出し、制約されたパッチをサポートするエビデンスバンドルを返す。
上位モデルでは91.7%以上を強力な集計スコアで達成しているが、エビデンス駆動の反復はIter2によるコード収束も引き起こす。
論文 参考訳(メタデータ) (2026-04-06T16:16:24Z) - A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation [3.503249117641051]
本稿では3つのコアイノベーションを組み込んだ階層的誤り訂正グラフフレームワークfor AutonomousAgentswithLLM-BasedActionGeneration(HECG)を提案する。
MDTS:タスク品質指標(Q),信頼性/コスト指標(C),報酬指標(R),LLMに基づく意味推論スコア(LLM-Score)を統合することで,MDTSは定量的パフォーマンスと意味的コンテキストの多次元的アライメントを実現する。
EMC:単純な混乱行列や全体的なパフォーマンス指標とは異なり、EMCはエラーをStrategy Whe(Strategy Whe)やScript(Script)といった10のタイプに分類することで、タスク障害の構造化された属性を提供する。
論文 参考訳(メタデータ) (2026-03-09T13:46:00Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。