論文の概要: Market-Bench: Evaluating Large Language Models on Introductory Quantitative Trading and Market Dynamics
- arxiv url: http://arxiv.org/abs/2512.12264v1
- Date: Sat, 13 Dec 2025 10:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.188153
- Title: Market-Bench: Evaluating Large Language Models on Introductory Quantitative Trading and Market Dynamics
- Title(参考訳): Market-Bench: 導入した量的トレーディングと市場ダイナミクスに基づく大規模言語モデルの評価
- Authors: Abhay Srivastava, Sam Jung, Spencer Mateega,
- Abstract要約: MARKET-BENCHは,大規模言語モデル (LLMs) を初歩的な量的トレーディングタスクで評価するベンチマークである。
各インスタンスは3つの標準戦略のうちの1つを指定する。
モデルは、P&L、ドローダウン、位置パスが検証可能な参照実装と一致するコードを生成する必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MARKET-BENCH, a benchmark that evaluates large language models (LLMs) on introductory quantitative trading tasks by asking them to construct executable backtesters from natural-language strategy descriptions and market assumptions. Each instance specifies one of three canonical strategies -- scheduled trading on Microsoft (NASDAQ: MSFT), pairs trading on Coca-Cola (NASDAQ: KO) and Pepsi (NASDAQ: PEP), or delta hedging on MSFT -- and models must produce code whose P\&L, drawdown, and position paths match a verifiable reference implementation. We assess twelve state-of-the-art models using a multi-round pass@k metric that separates structural reliability (whether the backtest runs) from numerical accuracy (mean absolute error of the backtest metrics). While most models reliably execute the simplest strategy (average pass@3 of 0.80), errors vary by orders of magnitude across models and tasks: Gemini 3 Pro and Claude 4.5 Sonnet combine strong reliability with low error on simpler strategies, GPT-5.1 Codex-Max achieves perfect pass@1 on the first two strategies and the lowest best-run error on the easiest task, and Qwen3 Max attains perfect pass@3 yet sometimes produces inaccurate P\&L paths. These results show that current LLMs can scaffold basic trading infrastructure but still struggle to reason robustly about prices, inventory, and risk; we release MARKET-BENCH and a public leaderboard at https://marketbench.ai.
- Abstract(参考訳): MARKET-BENCH(英語版)は、自然言語戦略記述と市場仮定から実行可能なバックテスターの構築を依頼することで、導入量取引タスクの大規模言語モデル(LLM)を評価するベンチマークである。
それぞれのインスタンスは、Microsoftのスケジュールトレーディング(NASDAQ: MSFT)、Coca-Cola(NASDAQ: KO)とPepsi(NASDAQ: PEP)のペアトレーディング(NASDAQ: PEP)、MSFTのデルタヘッジ(delta hedging on MSFT)の3つの標準戦略の1つを指定する。
複数ラウンドのpass@kメトリックを用いて12の最先端モデルを評価し,数値的精度(バックテストの絶対誤差)から構造的信頼性(バックテストの実行の有無)を分離する。
Gemini 3 ProとClaude 4.5 Sonnetは信頼性の高い信頼性と単純な戦略での低エラーを組み合わせ、GPT-5.1 Codex-Maxは最初の2つの戦略で完全パス@1を達成し、最も簡単なタスクで最小のベストランエラーを達成し、Qwen3 Maxは完璧パス@3を得るが、時に不正確なP\&Lパスを生成する。
これらの結果は、現在のLLMが基本的なトレーディング基盤を構築できるが、価格、在庫、リスクについてしっかりと理屈を崩すことに苦慮していることを示している。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning [5.65203350495478]
MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
論文 参考訳(メタデータ) (2024-12-17T05:50:55Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。