論文の概要: FinTradeBench: A Financial Reasoning Benchmark for LLMs
- arxiv url: http://arxiv.org/abs/2603.19225v1
- Date: Thu, 19 Mar 2026 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.332212
- Title: FinTradeBench: A Financial Reasoning Benchmark for LLMs
- Title(参考訳): FinTradeBench: LLMのファイナンシャル推論ベンチマーク
- Authors: Yogesh Agrawal, Aniruddha Dutta, Md Mahadi Hasan, Santu Karmaker, Aritra Dutta,
- Abstract要約: FinTradeBenchは、会社のファンダメンタルズとトレーディングシグナルを統合する、財務的推論を評価するためのベンチマークである。
FinTradeBenchには、NASDAQ-100企業で10年の歴史の窓から1,400の質問が寄せられている。
- 参考スコア(独自算出の注目度): 3.2342681547638796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundamentals derived from regulatory filings and trading signals computed from price dynamics. Recently, with the advancement of Large Language Models (LLMs), financial analysts have begun to use them for financial decision-making tasks. However, existing financial question answering benchmarks for testing these models primarily focus on company balance sheet data and rarely evaluate reasoning over how company stocks trade in the market or their interactions with fundamentals. To take advantage of the strengths of both approaches, we introduce FinTradeBench, a benchmark for evaluating financial reasoning that integrates company fundamentals and trading signals. FinTradeBench contains 1,400 questions grounded in NASDAQ-100 companies over a ten-year historical window. The benchmark is organized into three reasoning categories: fundamentals-focused, trading-signal-focused, and hybrid questions requiring cross-signal reasoning. To ensure reliability at scale, we adopt a calibration-then-scaling framework that combines expert seed questions, multi-model response generation, intra-model self-filtering, numerical auditing, and human-LLM judge alignment. We evaluate 14 LLMs under zero-shot prompting and retrieval-augmented settings and witness a clear performance gap. Retrieval substantially improves reasoning over textual fundamentals, but provides limited benefit for trading-signal reasoning. These findings highlight fundamental challenges in the numerical and time-series reasoning for current LLMs and motivate future research in financial intelligence.
- Abstract(参考訳): 現実の金融決定は、規制申請や価格変動から計算されたトレーディング信号など、異種信号の推論を必要とする難しい問題である。
近年,Large Language Models (LLMs) の進展に伴い,金融アナリストが金融意思決定に利用し始めた。
しかし、これらのモデルをテストするための既存の財務質問応答ベンチマークは、主に企業のバランスシートデータに焦点を当てており、市場での株価の取引方法や基本との相互作用に関する推論をほとんど評価していない。
両アプローチの長所を生かしたFinTradeBenchを紹介します。
FinTradeBenchには、NASDAQ-100企業で10年の歴史の窓の上の1,400の質問が含まれている。
ベンチマークは3つの推論カテゴリに分類される。
信頼性を確保するために,専門家の種問合せ,多モデル応答生成,モデル内自己フィルタリング,数値監査,人間-LLM判定アライメントを組み合わせたキャリブレーションスケーリングフレームワークを採用した。
ゼロショットプロンプトおよび検索拡張設定下において14個のLDMを評価し,明確な性能差を見いだした。
Retrievalは、テキストの基本に対する推論を大幅に改善するが、トレーディングシグナル推論の利点は限定的である。
これらの知見は、現在のLLMの数値的・時系列的推論における根本的な課題を浮き彫りにして、金融インテリジェンスにおける将来の研究を動機付けている。
関連論文リスト
- StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。
実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。
我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文 参考訳(メタデータ) (2025-10-02T16:54:57Z) - Trading-R1: Financial Trading with LLM Reasoning via Reinforcement Learning [19.52468210547666]
トレーディング-R1は、戦略的思考と包括的テーマ構成の計画、事実に基づく分析、ボラティリティ調整による意思決定を組み込んだ金融モデルである。
このシステムは、規律と解釈可能な取引決定をサポートする構造化されたエビデンスベースの投資成果を生成する。
論文 参考訳(メタデータ) (2025-09-14T20:13:41Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - Deriving Strategic Market Insights with Large Language Models: A Benchmark for Forward Counterfactual Generation [55.2788567621326]
本稿では,FIN-FORCE-FINancial Forward Counterfactual Evaluationを提案する。
FIN-FORCEは金融ニュースの見出しをまとめることで、LLMベースの対実生成を支援する。
これにより、将来の市場展開を探索し、予測するためのスケーラブルで自動化されたソリューションの道を開くことができる。
論文 参考訳(メタデータ) (2025-05-26T02:41:50Z) - Towards Competent AI for Fundamental Analysis in Finance: A Benchmark Dataset and Evaluation [5.892346584607669]
ファイナンシャルステートメント分析に着目したベンチマークデータセットであるFinAR-Benchを提案する。
重要な情報を抽出し、財務指標を計算し、論理的推論を適用する。
本研究は, 基礎解析におけるLLMの現在の強度と限界を明確に把握するものである。
論文 参考訳(メタデータ) (2025-05-22T07:06:20Z) - Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。
7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。
我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。