論文の概要: FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
- arxiv url: http://arxiv.org/abs/2506.02515v1
- Date: Tue, 03 Jun 2025 06:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.375482
- Title: FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
- Title(参考訳): FinChain: 検証可能なチェーン・オブ・サード・ファイナンシャル・推論のためのシンボリックベンチマーク
- Authors: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov,
- Abstract要約: FinChainは、検証可能なChain-of-Thought(CoT)金融推論のための最初のシンボリックベンチマークである。
FinChainはトピック毎に5つのパラメータ化されたテンプレートを提供する。
データセット上で30 LLMをベンチマークすると、最先端モデルでさえ改善の余地がかなりあることが分かります。
- 参考スコア(独自算出の注目度): 43.74670894224625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-step symbolic reasoning is critical for advancing downstream performance on financial tasks. Yet, benchmarks for systematically evaluating this capability are lacking. Existing datasets like FinQA and ConvFinQA supervise only final numerical answers, without assessing intermediate reasoning steps. To address this, we introduce FinChain, the first symbolic benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning. Spanning 54 topics across 12 financial domains, Fin- Chain offers five parameterized templates per topic, each varying in reasoning complexity and domain expertise required. Each dataset instance includes an executable Python trace, enabling automatic generation of extensive training data and easy adaptation to other domains. We also introduce ChainEval, a new metric for automatic evaluation of both final answers and intermediate reasoning. Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models have considerable room for improvement in multi-step financial reasoning. All templates and evaluation metrics for FinChain are available at https: //github.com/mbzuai-nlp/finchain.
- Abstract(参考訳): 多段階的シンボリック推論は、財務タスクにおける下流のパフォーマンス向上に不可欠である。
しかし、この能力を体系的に評価するベンチマークは欠落している。
FinQAやConvFinQAといった既存のデータセットは、中間推論ステップを評価することなく、最終的な数値回答のみを監督する。
この問題に対処するため、我々は、CoT (Chain-of-Thought) のファイナンシャル推論のために設計された最初のシンボリックベンチマークであるFinChainを紹介した。
12の金融ドメインに54のトピックを分散させ、Fin-Chainはトピック毎に5つのパラメータ化されたテンプレートを提供する。
各データセットインスタンスには実行可能なPythonトレースが含まれており、広範なトレーニングデータの自動生成と、他のドメインへの容易に適応を可能にする。
また、最終回答と中間推論の両方を自動評価する新しい指標であるChainEvalを紹介する。
データセット上で30 LLMをベンチマークすると、最先端のモデルでさえ、多段階の財務推論を改善する余地があることが分かる。
FinChainのテンプレートと評価メトリクスは、https: //github.com/mbzuai-nlp/finchainで利用可能である。
関連論文リスト
- FinS-Pilot: A Benchmark for Online Financial System [17.65500174763836]
FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。
当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
論文 参考訳(メタデータ) (2025-05-31T03:50:19Z) - DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain [6.275468311396066]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的なパフォーマンスを達成した。
DMind Benchmarkは、9つの重要なサブフィールドをカバーする総合的なWeb3指向評価スイートである。
評価対象はChatGPT, Claude, DeepSeek, Gemini, Grok, Qwenなど26モデルである。
論文 参考訳(メタデータ) (2025-04-18T16:40:39Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Demystifying Domain-adaptive Post-training for Financial LLMs [79.581577578952]
FINDAPは、大規模言語モデル(LLM)のドメイン適応後学習に関する体系的できめ細かな研究である
このアプローチは、FinCap、FinRec、FinTrain、FinEvalの4つの重要なコンポーネントで構成されています。
結果として得られるモデルであるLlama-Finは、幅広い財務タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-09T04:26:15Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [18.280762424107408]
FinTralは、Mistral-7bモデルに基づいて構築された、最先端のマルチモーダル言語モデル(LLM)のスイートである。
我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。
我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文 参考訳(メタデータ) (2024-02-16T05:05:12Z) - FinTree: Financial Dataset Pretrain Transformer Encoder for Relation
Extraction [0.0]
ファイナンシャルデータセット上でFinTreeを事前トレーニングし、財務タスクのモデルを適用します。
FinTreeは、従来のドメイントークンの代わりにマスク付きトークンを予測する新しい構造で際立っている。
我々の実験は、FinTreeが大規模な財務関係抽出データセットであるREFinDより優れていることを示した。
論文 参考訳(メタデータ) (2023-07-26T01:48:52Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。