論文の概要: Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning
- arxiv url: http://arxiv.org/abs/2601.21157v1
- Date: Thu, 29 Jan 2026 01:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.504569
- Title: Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning
- Title(参考訳): 算数ギャップのブリッジ:認知複雑度ベンチマークとロバストな財務推論のためのファイナンシャルPoT
- Authors: Boxiang Zhao, Qince Li, Zhonghao Wang, Yi Wang, Peng Cheng, Bo Lin,
- Abstract要約: 大規模言語モデルは,「認知的幻覚」と「認知的崩壊」というシステム的失敗モードに悩まされる
実世界95の中国Aシェア年次レポートから構築したデータセットをベースとした,堅牢な評価フレームワークであるCognitive Complexity Benchmark(CCB)を紹介する。
本稿では,これらの障害に対処するための反復的デュアル・パース・ファイナンシャル・PoTフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.522192050185568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models excel at semantic tasks, they face a critical bottleneck in financial quantitative reasoning, frequently suffering from "Arithmetic Hallucinations" and a systemic failure mode we term "Cognitive Collapse". To strictly quantify this phenomenon, we introduce the Cognitive Complexity Benchmark (CCB), a robust evaluation framework grounded in a dataset constructed from 95 real-world Chinese A-share annual reports. Unlike traditional datasets, the CCB stratifies financial queries into a three-dimensional taxonomy, Data Source, Mapping Difficulty, and Result Unit, enabling the precise diagnosis of reasoning degradation in high-cognitive-load scenarios. To address these failures, we propose the Iterative Dual-Phase Financial-PoT framework. This neuro-symbolic architecture enforces a strict architectural decoupling: it first isolates semantic variable extraction and logic formulation, then offloads computation to an iterative, self-correcting Python sandbox to ensure deterministic execution. Evaluation on the CCB demonstrates that while standard Chain-of-Thought falters on complex tasks, our approach offers superior robustness, elevating the Qwen3-235B model's average accuracy from 59.7\% to 67.3\% and achieving gains of up to 10-fold in high-complexity reasoning tasks. These findings suggest that architectural decoupling is a critical enabling factor for improving reliability in financial reasoning tasks, providing a transferable architectural insight for precision-critical domains that require tight alignment between semantic understanding and quantitative computation.
- Abstract(参考訳): 大規模言語モデルはセマンティックなタスクに優れていますが、金融量的推論において重大なボトルネックに直面しています。
この現象を厳密に定量化するために、95の現実世界の中国Aシェア年次レポートから構築したデータセットを基盤とした堅牢な評価フレームワークであるCognitive Complexity Benchmark (CCB)を導入する。
従来のデータセットとは異なり、CCBは財務的なクエリを3次元の分類、データソース、マッピング困難、結果ユニットに分類し、高い認知的負荷シナリオにおける推論劣化の正確な診断を可能にする。
これらの障害に対処するために、反復的デュアル・パース・ファイナンシャル・PoTフレームワークを提案する。
このニューロシンボリックアーキテクチャは、厳密なアーキテクチャの疎結合を強制する。まずセマンティック変数の抽出とロジックの定式化を分離し、次に計算を反復的に自己修正するPythonサンドボックスにオフロードし、決定論的実行を保証する。
CCBの評価は、複雑なタスクでは標準のチェーン・オブ・ソート・ファルターが有効であるが、我々の手法はより優れた堅牢性を提供し、Qwen3-235Bモデルの平均精度は59.7\%から67.3\%に上昇し、高複雑性推論タスクでは最大10倍まで向上することを示した。
これらの結果から, セマンティック理解と定量的計算の密接な整合性を必要とする精度クリティカルな領域に対して, アーキテクチャデカップリングが, 財務推論タスクの信頼性向上のための重要な要因であることが示唆された。
関連論文リスト
- Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - An Identifiable Cost-Aware Causal Decision-Making Framework Using Counterfactual Reasoning [18.324601057882386]
そこで本研究では,最小コスト因果決定(MiCCD)フレームワークを提案する。
混合異常データの存在を識別する反ファクト的推論プロセスに重点を置いている。
MiCCDは、F1スコア、コスト効率、ランキング品質(nDCG@k値)など、従来の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-13T08:41:45Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models [13.567516575993546]
金融分野における大規模言語モデル(LLM)の推論強化フレームワークであるDianJin-R1を提案する。
我々のアプローチの中心は、CFLUE、FinQA、および独自コンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセットであるDianJin-R1-Dataである。
我々のモデルであるDianJin-R1-7BとDianJin-R1-32Bは、Qwen2.5-7B-InstructとQwen2.5-32B-Instructから、推論ステップと最終回答の両方を生成する構造化形式を用いて微調整される。
論文 参考訳(メタデータ) (2025-04-22T09:01:04Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。