論文の概要: From Comprehension to Reasoning: A Hierarchical Benchmark for Automated Financial Research Reporting
- arxiv url: http://arxiv.org/abs/2603.19254v1
- Date: Wed, 25 Feb 2026 13:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.782304
- Title: From Comprehension to Reasoning: A Hierarchical Benchmark for Automated Financial Research Reporting
- Title(参考訳): 理解から推論へ:金融調査報告の階層的ベンチマーク
- Authors: Yiyun Zhu, Yidong Jiang, Ziwen Xu, Yinsheng Yao, Dawei Cheng, Jinru Ding, Yejie Zheng, Jie Xu,
- Abstract要約: FinReasoningは、中国のリサーチレポート生成を3段階に分解するベンチマークだ。
評価結果に基づいて、FinReasoningはほとんどのモデルが理解と実行のギャップを示すことを示した。
- 参考スコア(独自算出の注目度): 19.0993436440595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to generate financial research reports, shifting from auxiliary analytic tools to primary content producers. Yet recent real-world deployments reveal persistent failures--factual errors, numerical inconsistencies, fabricated references, and shallow analysis--that can distort assessments of corporate fundamentals and ultimately trigger severe economic losses. However, existing financial benchmarks focus on comprehension over completed reports rather than evaluating whether a model can produce reliable analysis. Moreover, current evaluation frameworks merely flag hallucinations and lack structured measures for deeper analytical skills, leaving key analytical bottlenecks undiscovered. To address these gaps, we introduce FinReasoning, a benchmark that decomposes Chinese research-report generation into three stages aligned with real analyst workflows, assessing semantic consistency, data alignment, and deep insight. We further propose a fine-grained evaluation framework that strengthens hallucination-correction assessment and incorporates a 12-indicator rubric for core analytical skills. Based on the evaluation results, FinReasoning reveals that most models exhibit a understanding-execution gap: they can identify errors but struggle to generate accurate corrections; they can retrieve data but have difficulty returning it in correct format. Furthermore, no model achieves overwhelming superiority across all three tracks; Doubao-Seed-1.8, GPT-5, and Kimi-K2 rank as the top three in overall performance, yet each exhibits a distinct capability distribution. The evaluation resource is available at https://github.com/TongjiFinLab/FinReasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、補助的な分析ツールから一次コンテンツ生産者へと移行し、金融調査レポートを生成するためにますます使われてきている。
しかし、最近の現実世界の展開では、実際のエラー、数値的な矛盾、製造された基準、浅い分析といった持続的な失敗が明らかになっている。
しかし、既存の金融ベンチマークでは、モデルが信頼できる分析を作成できるかどうかを評価するのではなく、完了レポートに対する理解に焦点を当てている。
さらに、現在の評価フレームワークは、単に幻覚をフラグし、より深い分析スキルのための構造化された尺度を欠いているだけであり、主要な分析ボトルネックは未発見のままである。
これらのギャップに対処するために、FinReasoningという、中国のリサーチレポート生成を、実際のアナリストワークフローに沿った3つのステージに分解し、セマンティック一貫性、データアライメント、深い洞察を評価するベンチマークを紹介します。
さらに、幻覚補正評価を強化し、コア分析技術に12指標ルーブリックを組み込んだきめ細かい評価フレームワークを提案する。
評価結果に基づいて、FinReasoningは、ほとんどのモデルでは理解と実行のギャップがあることを明らかにしている。
さらに、Douubao-Seed-1.8、GPT-5、Kimi-K2の3つのトラックで圧倒的に優越するモデルはない。
評価リソースはhttps://github.com/TongjiFinLab/FinReasoning.comで公開されている。
関連論文リスト
- Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings [31.87459935714186]
Fin-RATE(フィン・ラテ)は、米国証券取引委員会(SEC)の申請書類と財務アナリストを反映したベンチマークである。
我々は、オープンソース、クローズドソース、金融特化モデルにまたがって、Large Language Models(LLM)をリードする17のベンチマークを行った。
その結果、タスクが単一文書推論から縦断的、横断的分析へ移行するにつれて、精度が18.60%低下し、14.35%低下した。
論文 参考訳(メタデータ) (2026-02-07T00:54:37Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks [0.0]
さまざまな財務資料やデータから340万以上のアウトプットを生成します。
より高度なモデルは一貫性を常に示さず、高い合意を維持する。
3-5の単純なアグリゲーション戦略は、一貫性を劇的に改善する。
論文 参考訳(メタデータ) (2025-03-21T09:43:37Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。