論文の概要: FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
- arxiv url: http://arxiv.org/abs/2510.08886v1
- Date: Fri, 10 Oct 2025 00:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.914863
- Title: FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
- Title(参考訳): FinAuditing: LLMの評価のための金融分類構造化マルチドキュメントベンチマーク
- Authors: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie,
- Abstract要約: FinAuditingは、財務監査タスクを評価するための最初の分類基準であり、構造を意識したマルチドキュメントのベンチマークである。
本物のアメリカ製である。
FinAuditingは3つの補完的なサブタスク、セマンティック一貫性のためのFinSM、リレーショナル一貫性のためのFinRE、数値一貫性のためのFinMRを定義している。
13の最先端のLCMに関する大規模なゼロショット実験は、現在のモデルが意味論、関係論、数学的次元で矛盾なく機能することを明らかにする。
- 参考スコア(独自算出の注目度): 40.216867348210265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The complexity of the Generally Accepted Accounting Principles (GAAP) and the hierarchical structure of eXtensible Business Reporting Language (XBRL) filings make financial auditing increasingly difficult to automate and verify. While large language models (LLMs) have demonstrated strong capabilities in unstructured text understanding, their ability to reason over structured, interdependent, and taxonomy-driven financial documents remains largely unexplored. To fill this gap, we introduce FinAuditing, the first taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings, FinAuditing defines three complementary subtasks, FinSM for semantic consistency, FinRE for relational consistency, and FinMR for numerical consistency, each targeting a distinct aspect of structured auditing reasoning. We further propose a unified evaluation framework integrating retrieval, classification, and reasoning metrics across these subtasks. Extensive zero-shot experiments on 13 state-of-the-art LLMs reveal that current models perform inconsistently across semantic, relational, and mathematical dimensions, with accuracy drops of up to 60-90% when reasoning over hierarchical multi-document structures. Our findings expose the systematic limitations of modern LLMs in taxonomy-grounded financial reasoning and establish FinAuditing as a foundation for developing trustworthy, structure-aware, and regulation-aligned financial intelligence systems. The benchmark dataset is available at Hugging Face.
- Abstract(参考訳): GAAP(Generally Accepted Accounting Principles)の複雑さとeXtensible Business Reporting Language(XBRL)の階層構造は、財務監査の自動化と検証をますます困難にしています。
大規模言語モデル(LLM)は、構造化されていないテキスト理解において強力な能力を示してきたが、構造化、相互依存、分類に依存した財務文書を推論する能力はほとんど解明されていない。
このギャップを埋めるために、金融監査タスクにおけるLCMを評価するための最初の分類対応、構造対応、マルチドキュメントベンチマークであるFinAuditingを紹介する。
実際のUS-GAAP準拠のXBRLファイリングから構築されたFinAuditingは、セマンティック一貫性のためのFinSM、リレーショナル一貫性のためのFinRE、数値一貫性のためのFinMRという3つの補完的なサブタスクを定義している。
さらに,これらのサブタスクにまたがる検索,分類,推論のメトリクスを統合する統合評価フレームワークを提案する。
13の最先端LCMの広範囲なゼロショット実験により、現在のモデルは意味論、関係論、数学的次元で矛盾なく動作し、階層的な多文書構造を仮定すると、精度は最大60-90%低下する。
本研究は, 分類学を基盤とした金融推論における近代LLMの体系的限界を明らかにし, 信頼性, 構造認識, 規制に整合した金融インテリジェンスシステム構築の基盤としてFinAuditingを確立することを目的とした。
ベンチマークデータセットはHugging Faceで公開されている。
関連論文リスト
- FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information [47.37027539828975]
FinTaggingは構造認識とフルスコープのための最初の包括的なベンチマークである。
タグ付け
数値識別用FinNIは、数値エンティティとそのタイプを抽出する。
財務報告
概念リンクのためのFinCLは、抽出された各実体を米国の完全な分類学における対応する概念にマッピングする。
論文 参考訳(メタデータ) (2025-05-27T02:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。