論文の概要: BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
- arxiv url: http://arxiv.org/abs/2601.06401v1
- Date: Sat, 10 Jan 2026 02:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.79526
- Title: BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
- Title(参考訳): BizFinBench.v2: エキスパートレベル財務能力アライメントのための統一されたデュアルモードバイリンガルベンチマーク
- Authors: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang,
- Abstract要約: BizFinBench.v2は中国と米国両方の株式市場のビジネスデータに基づく最初の大規模評価ベンチマークである。
その結果、8つの基本的なタスクと2つのオンラインタスク、合計29,578人のエキスパートレベルのQ&Aペアが得られた。
ChatGPT-5は主要なタスクにおいて61.5%の精度を達成しているが、金融専門家とはかなりの差がある。
オンラインタスクでは、DeepSeek-R1は他の商用LLMよりも優れています。
- 参考スコア(独自算出の注目度): 12.163992099059461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.
- Abstract(参考訳): 大規模言語モデルは、金融業務におけるインテリジェンスにとって重要な技術として出現し、急速な進化を遂げている。
しかし、既存のベンチマークは、シミュレーションや汎用的なサンプルへの依存や、特異でオフラインの静的シナリオへのフォーカスといった落とし穴によって制約されることが多い。
その結果、金融サービスの信頼性とリアルタイムの応答性の要件に合致せず、ベンチマークパフォーマンスと実際の運用効率との間に大きな違いが生じる。
この問題に対処するため、中国と米国両方の株式市場の真正なビジネスデータに基づく最初の大規模評価ベンチマークであるBizFinBench.v2を導入し、オンラインアセスメントを統合する。
その結果,4つのビジネスシナリオにまたがる8つの基本的なタスクと2つのオンラインタスク,合計29,578人のエキスパートレベルのQ&Aペアが得られた。
実験の結果、ChatGPT-5は主要なタスクにおいて61.5%の精度を達成しているが、金融専門家との大きな差は持続し、オンラインタスクでは、DeepSeek-R1は他のすべての商用LCMよりも優れていることが示された。
エラー分析は、実践的な金融ビジネスの文脈において、既存のモデルの特定の能力不足を更に特定する。
BizFinBench.v2は、現在のベンチマークの限界を超越し、LLMの財務能力のビジネスレベルのデコンストラクションを実現し、金融分野におけるLLMの広範な展開における有効性を評価するための正確な基盤を提供する。
データとコードはhttps://github.com/HiThink-Research/BizFinBench.v2で公開されている。
関連論文リスト
- FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。
o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。
DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文 参考訳(メタデータ) (2025-10-17T01:45:49Z) - EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements [7.259647868714988]
EDINET-Benchは,大規模言語モデル(LLM)の性能を評価するための,オープンソースの日本語金融ベンチマークである。
我々の実験は、最先端のLLMでさえも、不正検出と利益予測のためのバイナリ分類において、ロジスティック回帰よりもわずかに優れた性能を発揮していることを示している。
我々のデータセット、ベンチマーク構築コード、評価コードは、LLMによる将来の金融研究を促進するために公開されています。
論文 参考訳(メタデータ) (2025-06-10T13:03:36Z) - FinS-Pilot: A Benchmark for Online Financial RAG System [21.64301644235658]
FinS-Pilotはオンライン金融アプリケーションにおけるRAGシステム評価のための新しいベンチマークである。
我々のベンチマークでは、インテント分類フレームワークによって編成されたリアルタイムAPIデータとテキストデータの両方が組み込まれている。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとデータセットの両立に寄与する。
論文 参考訳(メタデータ) (2025-05-31T03:50:19Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。