論文の概要: BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios
- arxiv url: http://arxiv.org/abs/2602.17072v1
- Date: Thu, 19 Feb 2026 04:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.69758
- Title: BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios
- Title(参考訳): BankMathBench: 銀行シナリオにおける数値推論のベンチマーク
- Authors: Yunseung Lee, Subin Kim, Youngjun Kwak, Jaegul Choo,
- Abstract要約: 大規模言語モデル(LLM)ベースのチャットボットは金融分野でますます採用されている。
これらのモデルは依然として、コアバンキング計算において低い精度を示している。
BankMathBenchは、現実的な銀行業務を反映したドメイン固有のデータセットである。
- 参考スコア(独自算出の注目度): 45.48548225665319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs)-based chatbots are increasingly being adopted in the financial domain, particularly in digital banking, to handle customer inquiries about products such as deposits, savings, and loans. However, these models still exhibit low accuracy in core banking computations-including total payout estimation, comparison of products with varying interest rates, and interest calculation under early repayment conditions. Such tasks require multi-step numerical reasoning and contextual understanding of banking products, yet existing LLMs often make systematic errors-misinterpreting product types, applying conditions incorrectly, or failing basic calculations involving exponents and geometric progressions. However, such errors have rarely been captured by existing benchmarks. Mathematical datasets focus on fundamental math problems, whereas financial benchmarks primarily target financial documents, leaving everyday banking scenarios underexplored. To address this limitation, we propose BankMathBench, a domain-specific dataset that reflects realistic banking tasks. BankMathBench is organized in three levels of difficulty-basic, intermediate, and advanced-corresponding to single-product reasoning, multi-product comparison, and multi-condition scenarios, respectively. When trained on BankMathBench, open-source LLMs exhibited notable improvements in both formula generation and numerical reasoning accuracy, demonstrating the dataset's effectiveness in enhancing domain-specific reasoning. With tool-augmented fine-tuning, the models achieved average accuracy increases of 57.6%p (basic), 75.1%p (intermediate), and 62.9%p (advanced), representing significant gains over zero-shot baselines. These findings highlight BankMathBench as a reliable benchmark for evaluating and advancing LLMs' numerical reasoning in real-world banking scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのチャットボットは、金融分野、特にデジタルバンキングにおいて、預金、貯蓄、ローンといった製品に関する顧客の問い合わせを処理するために、ますます採用されている。
しかし、これらのモデルは依然としてコアバンキング計算において低い精度を示しており、その中には総支払額の推定、利率の異なる製品の比較、早期返済条件下での利子計算が含まれる。
このようなタスクには、銀行製品に対する多段階の数値的推論と文脈的理解が必要であるが、既存のLLMでは、製品タイプを体系的に誤解釈したり、条件を誤って適用したり、指数や幾何学的進行を含む基本的な計算に失敗したりすることが多い。
しかし、そのようなエラーは既存のベンチマークで捉えられることはめったにない。
数学的なデータセットは基本的な数学の問題に焦点をあてるが、金融ベンチマークは主に財務文書を対象とし、日常的な銀行のシナリオは未調査のままである。
この制限に対処するため、現実的な銀行業務を反映したドメイン固有のデータセットであるBankMathBenchを提案する。
BankMathBenchはそれぞれ、単一積推論、多積比較、多条件シナリオに対応する難易度、中間度、高度な3つのレベルに分類される。
BankMathBenchでトレーニングを行うと、オープンソースのLLMは公式生成と数値推論の精度の両方において顕著な改善を示し、データセットがドメイン固有の推論を強化する効果を示した。
ツール強化された微調整により、平均精度は57.6%p(基本)、75.1%p(中間)、62.9%p(先進)となり、ゼロショットベースラインよりも大幅に向上した。
これらの結果は、現実の銀行シナリオにおけるLLMの数値推論の評価と進展のための信頼性ベンチマークとして、BankMathBenchを際立たせている。
関連論文リスト
- FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - LOB-Bench: Benchmarking Generative AI for Finance -- an Application to Limit Order Book Data [7.317765812144531]
本稿では,リミテッド・オーダー・ブック(LOB)における生成メッセージ・バイ・オーダーデータの品質と現実性を評価するためのベンチマークを提案する。
本フレームワークは,実LOBデータと実LOBデータ間の条件および非条件統計量の分布差を計測する。
ベンチマークには、スプレッド、オーダーブックボリューム、オーダー不均衡、メッセージ間の時間といった一般的なLOB統計情報も含まれている。
論文 参考訳(メタデータ) (2025-02-13T10:56:58Z) - Advanced User Credit Risk Prediction Model using LightGBM, XGBoost and Tabnet with SMOTEENN [8.225603728650478]
研究対象として商業銀行が提供する4万件以上のレコードのデータセットを使用します。
実験では、LightGBMとPCAとSMOTEENNの技術を組み合わせることで、銀行が高品質な顧客を正確に予測できることを示した。
論文 参考訳(メタデータ) (2024-08-07T01:37:10Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。