論文の概要: QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.08689v1
- Date: Tue, 13 Jan 2026 16:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.276921
- Title: QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models
- Title(参考訳): QuantEval: 大規模言語モデルにおける財務的量的タスクのベンチマーク
- Authors: Zhaolu Kang, Junhao Gong, Wenqing Hu, Shuo Yin, Kehan Jiang, Zhicheng Fang, Yingjie He, Chunlei Meng, Rong Fu, Dongyang Chen, Leqi Zheng, Eric Hanchen Jiang, Yunfei Feng, Yitong Leng, Junfan Zhu, Xiaoyou Chen, Xi Yang, Richeng Xuan,
- Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにわたって強力な能力を示してきたが、財務的な量的タスクの評価は依然として断片化されている。
我々は、知識に基づくQA、量的数学的推論、量的戦略コーディングの3つの重要な分野にわたるLCMを評価するベンチマークであるQuantEvalを紹介する。
- 参考スコア(独自算出の注目度): 9.14836101052563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong capabilities across many domains, yet their evaluation in financial quantitative tasks remains fragmented and mostly limited to knowledge-centric question answering. We introduce QuantEval, a benchmark that evaluates LLMs across three essential dimensions of quantitative finance: knowledge-based QA, quantitative mathematical reasoning, and quantitative strategy coding. Unlike prior financial benchmarks, QuantEval integrates a CTA-style backtesting framework that executes model-generated strategies and evaluates them using financial performance metrics, enabling a more realistic assessment of quantitative coding ability. We evaluate some state-of-the-art open-source and proprietary LLMs and observe substantial gaps to human experts, particularly in reasoning and strategy coding. Finally, we conduct large-scale supervised fine-tuning and reinforcement learning experiments on domain-aligned data, demonstrating consistent improvements. We hope QuantEval will facilitate research on LLMs' quantitative finance capabilities and accelerate their practical adoption in real-world trading workflows. We additionally release the full deterministic backtesting configuration (asset universe, cost model, and metric definitions) to ensure strict reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの領域で強力な能力を示しているが、財務的な量的タスクの評価は断片的であり、主に知識中心の質問応答に限られている。
我々は、知識に基づくQA、量的数学的推論、量的戦略コーディングの3つの重要な分野にわたるLCMを評価するベンチマークであるQuantEvalを紹介する。
従来の金融ベンチマークとは異なり、QuantEvalはCTAスタイルのバックテストフレームワークを統合し、モデル生成戦略を実行し、財務パフォーマンスメトリクスを使用してそれらを評価することで、定量的コーディング能力をより現実的に評価することができる。
我々は、最先端のオープンソースおよびプロプライエタリなLCMを評価し、特に推論と戦略コーディングにおいて、人間の専門家にかなりのギャップを観察する。
最後に,大規模教師付き微調整および強化学習実験を行い,一貫した改善を実証した。
我々は,LLMの量的金融能力の研究を促進し,現実の取引ワークフローにおける実践的導入を加速させることを期待する。
さらに、厳密な再現性を確保するために、完全な決定論的バックテスト構成(宇宙、コストモデル、メートル法の定義)もリリースします。
関連論文リスト
- FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [29.526711154687945]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。
認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。
実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文 参考訳(メタデータ) (2025-06-18T06:21:50Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - BizBench: A Quantitative Reasoning Benchmark for Business and Finance [7.4673182865000225]
BizBenchは、現実的な金融問題を推論するモデルの能力を評価するためのベンチマークである。
新たに収集および拡張されたQAデータから、財務的にテーマ化された3つのコード生成タスクを含む。
これらのタスクは、モデルの財務的背景の知識、財務文書を解析する能力、およびコードの問題を解決する能力を評価する。
論文 参考訳(メタデータ) (2023-11-11T16:16:11Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [48.87381259980254]
我々は、ChatGPTのような大規模言語モデル(LLM)が、直接の金融トレーニングなしでニュースの見出しから株式市場の反応を予測する能力について文書化している。
GPT-4は、認識後カットオフの見出しを使って、最初の市場の反応を捉え、取引不能な初期反応に対して、ポートフォリオの1日当たりのヒット率を約90%達成している。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。