論文の概要: BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
- arxiv url: http://arxiv.org/abs/2505.19457v1
- Date: Mon, 26 May 2025 03:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.137319
- Title: BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
- Title(参考訳): BizFinBench: LLMを評価するためのビジネス駆動の実世界のファイナンシャルベンチマーク
- Authors: Guilong Lu, Xuntao Guo, Rongjunchen Zhang, Wenqiao Zhu, Ji Liu,
- Abstract要約: 大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
- 参考スコア(独自算出の注目度): 7.9458352414205295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel in general tasks, yet assessing their reliability in logic-heavy, precision-critical domains like finance, law, and healthcare remains challenging. To address this, we introduce BizFinBench, the first benchmark specifically designed to evaluate LLMs in real-world financial applications. BizFinBench consists of 6,781 well-annotated queries in Chinese, spanning five dimensions: numerical calculation, reasoning, information extraction, prediction recognition, and knowledge-based question answering, grouped into nine fine-grained categories. The benchmark includes both objective and subjective metrics. We also introduce IteraJudge, a novel LLM evaluation method that reduces bias when LLMs serve as evaluators in objective metrics. We benchmark 25 models, including both proprietary and open-source systems. Extensive experiments show that no model dominates across all tasks. Our evaluation reveals distinct capability patterns: (1) In Numerical Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning, proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with open-source models trailing by up to 19.49 points; (3) In Information Extraction, the performance spread is the largest, with DeepSeek-R1 scoring 71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition, performance variance is minimal, with top models scoring between 39.16 and 50.00. We find that while current LLMs handle routine finance queries competently, they struggle with complex scenarios requiring cross-concept reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future research. The code and dataset are available at https://github.com/HiThink-Research/BizFinBench.
- Abstract(参考訳): 大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、金融、法律、医療といったドメインでの信頼性の評価は難しいままです。
これを解決するために,実世界の金融アプリケーションでLLMを評価するために設計された最初のベンチマークであるBizFinBenchを紹介する。
BizFinBenchは中国語で6,781の注釈付きクエリで構成され、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがる。
ベンチマークには客観的メトリクスと主観的メトリクスの両方が含まれている。
また,新たなLCM評価手法であるIeraJudgeを導入する。
プロプライエタリシステムとオープンソースシステムの両方を含む25のモデルをベンチマークします。
大規模な実験では、すべてのタスクでモデルが支配的でないことが示されている。
1) 数値計算では Claude-3.5-Sonnet (63.18) と DeepSeek-R1 (64.04) がリード,(2) 推論では Qwen2.5-VL-3B (15.92) がラグ,(2) 推論ではプロプライエタリモデル(ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15) が19.49点まで追従するオープンソースモデル,(3) 情報抽出では DeepSeek-R1 が71.46点, 予測では Qwen3-1.7B が11.23点, 予測では性能のばらつきは3916点から5000点の間で最小となる。
現在のLLMは、通常の金融クエリを能力的に扱えるが、クロスコンセプト推論を必要とする複雑なシナリオに苦慮している。
BizFinBenchは、将来の研究のための厳格なビジネス整合性のあるベンチマークを提供する。
コードとデータセットはhttps://github.com/HiThink-Research/BizFinBench.comで公開されている。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Expect the Unexpected: FailSafe Long Context QA for Finance [0.0]
FailSafeQAは、金融におけるヒューマン・インタフェース・インタラクションの6つのバリエーションに対して、LLMの堅牢性とコンテキスト認識性をテストするように設計されている。
我々は,Qwen2.5-72B-Instruct を用いた LLM-as-a-Judge 手法を採用し,ロバストネス,コンテキストグラウンド,コンプライアンススコアを24個のオフザシェルフモデルで定義・算出するために,きめ細かい評価基準を用いた。
論文 参考訳(メタデータ) (2025-02-10T10:29:28Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - BloombergGPT: A Large Language Model for Finance [42.73350054822628]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。
Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。
我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文 参考訳(メタデータ) (2023-03-30T17:30:36Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。