Fugu-MT 論文翻訳(概要): SysTradeBench: An Iterative Build-Test-Patch Benchmark for Strategy-to-Code Trading Systems with Drift-Aware Diagnostics

論文の概要: SysTradeBench: An Iterative Build-Test-Patch Benchmark for Strategy-to-Code Trading Systems with Drift-Aware Diagnostics

arxiv url: http://arxiv.org/abs/2604.04812v1
Date: Mon, 06 Apr 2026 16:16:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.27692
Title: SysTradeBench: An Iterative Build-Test-Patch Benchmark for Strategy-to-Code Trading Systems with Drift-Aware Diagnostics
Title（参考訳）: SysTradeBench: Drift-Aware診断による戦略とコード間のトレーディングシステムの反復的なビルド-テスト-パッチベンチマーク
Authors: Yuchen Cao, Hanlin Zhang, Jacky Wai Keung, Yang Chen, Linqi Song,
Abstract要約: 我々はSysTradeBenchを紹介した。SysTradeBenchは、ストラテジ-コードトレーディングシステムのベンチマークのための監査可能なベンチマークである。サンドボックス化されたハーネスは、決定論とアンチ推論チェックを実行し、ルールドリフトを検出し、制約されたパッチをサポートするエビデンスバンドルを返す。上位モデルでは91.7%以上を強力な集計スコアで達成しているが、エビデンス駆動の反復はIter2によるコード収束も引き起こす。
参考スコア（独自算出の注目度）: 25.854191624941677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly used as quantitative research copilots to translate natural-language strategy specifications into executable trading code. Yet most existing evaluations either focus on static financial knowledge or summarize performance with a single profitability metric, leaving a gap for benchmarking strategy-to-code trading systems as governed, auditable software. We introduce SysTradeBench (SysTB), an iterative build-test-patch benchmark that evaluates LLM-generated trading systems under drift-aware diagnostics. Given a standardized Base Strategy Doc and frozen semantics, each model must produce (i) a strategy card, (ii) executable code, and (iii) mandatory audit logs. A sandboxed harness runs determinism and anti-leakage checks, detects rule drift across iterations, and returns evidence bundles to support constrained patches. SysTradeBench reports multi-dimensional scorecards for spec fidelity, risk discipline, reliability, and out-of-sample robustness indicators, together with cost-effectiveness signals. We evaluate 17 models across 12 strategies. Top models achieve validity above 91.7 percent with strong aggregate scores, but evidence-driven iteration also induces code convergence by Iter2. These findings suggest that LLM iteration complements rather than replaces human quantitative researcher governance: LLMs excel at rapid prototyping and shallow bug fixes, while human oversight remains essential for critical strategies requiring solution diversity and ensemble robustness.
Abstract（参考訳）: 大規模言語モデル (LLM) は、自然言語戦略仕様を実行可能なトレーディングコードに変換するための定量的研究コーディットとして、ますます使われている。しかし、既存の評価のほとんどは、静的な財務知識に焦点を当てるか、単一の収益性指標でパフォーマンスを要約し、ストラテジーとコード間のトレーディングシステムを管理可能な監査可能なソフトウェアとしてベンチマークする余地を残している。 SysTradeBench (SysTB) は, ドリフト・アウェア・診断の下でLCM生成トレーディングシステムを評価する反復的ビルド・テスト・パッチ・ベンチマークである。標準化されたBase Strategy Docとフリーズセマンティクスが与えられた場合、各モデルは生成しなければならない。 (i)戦略カード (ii)実行可能コード、及び三義務監査記録サンドボックス化されたハーネスは、決定論とアンチ推論チェックを実行し、反復間のルールドリフトを検出し、制約されたパッチをサポートするエビデンスバンドルを返す。 SysTradeBenchは、費用対効果信号とともに、スペックの忠実度、リスク規律、信頼性、サンプル外ロバスト性指標のための多次元スコアカードを報告している。 12戦略にまたがる17のモデルを評価します。上位モデルでは91.7%以上を強力な集計スコアで達成しているが、エビデンス駆動の反復はIter2によるコード収束も引き起こす。 LLMは迅速なプロトタイピングと浅いバグ修正に優れ、一方で人間の監視は、ソリューションの多様性とアンサンブルロバスト性を必要とする重要な戦略に不可欠である。

関連論文リスト

Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。 SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。 SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文参考訳（メタデータ） (2026-02-26T03:34:23Z)
AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文参考訳（メタデータ） (2026-02-18T14:55:35Z)
AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models [23.493646150407116]
リアルタイム取引性能の現在の評価は、重大な障害モードを見落としている:不確実性の下でのシーケンシャルな意思決定における厳しい行動不安定性である。提案するAlphaForgeBenchは,大規模言語モデル(LLM)を,実行エージェントではなく定量的研究者として再構成する,原則化されたフレームワークである。
論文参考訳（メタデータ） (2026-02-10T14:29:33Z)
Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。 MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2026-02-08T16:06:12Z)
CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection [44.251742023911135]
CreditAuditはデプロイ指向の信用監査フレームワークで、セマンティックアライメントと非敵対的なシステムプロンプトテンプレートのファミリ下でモデルを評価する。同様の平均能力を持つモデルは、かなり異なる変動を示し、安定リスクは、エージェントまたは高失敗コストの制度における優先順位決定を覆す可能性があることを示す。
論文参考訳（メタデータ） (2026-01-23T07:53:25Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。