論文の概要: FinanceReasoning: Benchmarking Financial Numerical Reasoning More Credible, Comprehensive and Challenging
- arxiv url: http://arxiv.org/abs/2506.05828v1
- Date: Fri, 06 Jun 2025 07:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.367203
- Title: FinanceReasoning: Benchmarking Financial Numerical Reasoning More Credible, Comprehensive and Challenging
- Title(参考訳): FinanceReasoning:財務数値推論のベンチマーク
- Authors: Zichen Tang, Haihong E, Ziyan Ma, Haoyang He, Jiacheng Liu, Zhongjun Yang, Zihua Rong, Rongjin Li, Kun Ji, Qing Huang, Xinyang Hu, Yang Liu, Qianhe Zheng,
- Abstract要約: FinanceReasoningは、金融数値推論問題における大きな推論モデル(LRM)の推論能力を評価するために設計された新しいベンチマークである。
4つの公開データセットからの質問の15.6%を更新し、詳細なPythonソリューションで908の新たな質問を注釈付けします。
我々は、3,133個のPython形式の関数を構築し、LEMの金銭的推論能力を高める。
- 参考スコア(独自算出の注目度): 10.175739273593985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FinanceReasoning, a novel benchmark designed to evaluate the reasoning capabilities of large reasoning models (LRMs) in financial numerical reasoning problems. Compared to existing benchmarks, our work provides three key advancements. (1) Credibility: We update 15.6% of the questions from four public datasets, annotating 908 new questions with detailed Python solutions and rigorously refining evaluation standards. This enables an accurate assessment of the reasoning improvements of LRMs. (2) Comprehensiveness: FinanceReasoning covers 67.8% of financial concepts and formulas, significantly surpassing existing datasets. Additionally, we construct 3,133 Python-formatted functions, which enhances LRMs' financial reasoning capabilities through refined knowledge (e.g., 83.2% $\rightarrow$ 91.6% for GPT-4o). (3) Challenge: Models are required to apply multiple financial formulas for precise numerical reasoning on 238 Hard problems. The best-performing model (i.e., OpenAI o1 with PoT) achieves 89.1% accuracy, yet LRMs still face challenges in numerical precision. We demonstrate that combining Reasoner and Programmer models can effectively enhance LRMs' performance (e.g., 83.2% $\rightarrow$ 87.8% for DeepSeek-R1). Our work paves the way for future research on evaluating and improving LRMs in domain-specific complex reasoning tasks.
- Abstract(参考訳): 金融数値推論問題における大推論モデル(LRM)の推論能力を評価するために設計された新しいベンチマークであるファイナンス推論を紹介する。
既存のベンチマークと比較すると、我々の研究は3つの重要な進歩をもたらしている。
1) 信頼性: 4つの公開データセットからの質問の15.6%を更新します。
これにより、LEMの推論改善の正確な評価が可能になる。
2)包括性:ファイナンス推論は,既存のデータセットをはるかに上回り,財務概念や公式の67.8%をカバーしている。
さらに、3,133個のPython形式の関数を構築し、洗練された知識(例えば、83.2% $\rightarrow$91.6% for GPT-4o)を通してLEMの財務的推論能力を向上させる。
(3)難解:238の難解な問題に対して、厳密な数値推論のために複数の財務公式を適用する必要がある。
最高の性能モデル(すなわちOpenAI o1 with PoT)は89.1%の精度を達成しているが、LRMは依然として数値精度の課題に直面している。
我々は、ReasonerモデルとProgrammerモデルを組み合わせることで、LRMの性能を効果的に向上させることができることを示した(たとえば、DeepSeek-R1では83.2%$\rightarrow$87.8%)。
我々の研究は、ドメイン固有の複雑な推論タスクにおけるLEMの評価と改善に関する今後の研究の道を開くものである。
関連論文リスト
- BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文 参考訳(メタデータ) (2025-05-26T03:23:02Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models [13.567516575993546]
金融分野における大規模言語モデル(LLM)の推論強化フレームワークであるDianJin-R1を提案する。
我々のアプローチの中心は、CFLUE、FinQA、および独自コンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセットであるDianJin-R1-Dataである。
我々のモデルであるDianJin-R1-7BとDianJin-R1-32Bは、Qwen2.5-7B-InstructとQwen2.5-32B-Instructから、推論ステップと最終回答の両方を生成する構造化形式を用いて微調整される。
論文 参考訳(メタデータ) (2025-04-22T09:01:04Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance [32.516564836540745]
大規模言語モデル(LLM)は、強力な一般的な推論能力を示しているが、財務的推論におけるその効果はいまだに解明されていない。
我々は,4つの複雑な財務推論タスクにおいて,24の最先端の一般および推論に焦点を当てたLCMを評価した。
本稿では,Fino1-8BとFinoBの2つのドメイン適応モデルを提案する。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。