論文の概要: FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles
- arxiv url: http://arxiv.org/abs/2603.11339v1
- Date: Wed, 11 Mar 2026 22:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.668548
- Title: FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles
- Title(参考訳): FinRule-Bench: ファイナンシャルテーブルと原則に関する共同推論のベンチマーク
- Authors: Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang,
- Abstract要約: FinRule-Benchは、現実の財務表よりもルールベースの財務推論における診断完全性を評価するためのベンチマークである。
ベンチマークでは、段階的に強力な推論機能を必要とする3つの監査タスクを定義している。
分離されたルール検証ではモデルの性能は良好に向上するが,ルール識別やマルチ違反診断では性能が著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 29.186495806527947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly applied to financial analysis, yet their ability to audit structured financial statements under explicit accounting principles remains poorly explored. Existing benchmarks primarily evaluate question answering, numerical reasoning, or anomaly detection on synthetically corrupted data, making it unclear whether models can reliably verify or localize rule compliance on correct financial statements. We introduce FinRule-Bench, a benchmark for evaluating diagnostic completeness in rule-based financial reasoning over real-world financial tables. FinRule-Bench pairs ground-truth financial statements with explicit, human-curated accounting principles and spans four canonical statement types: Balance Sheets, Cash Flow Statements, Income Statements, and Statements of Equity. The benchmark defines three auditing tasks that require progressively stronger reasoning capabilities: (i) rule verification, which tests compliance with a single principle; (ii) rule identification, which requires selecting the violated principle from a provided rule set; and (iii) joint rule diagnosis, which requires detecting and localizing multiple simultaneous violations at the record level. We evaluate LLMs under zero-shot and few-shot prompting, and introduce a causal-counterfactual reasoning protocol that enforces consistency between decisions, explanations, and counterfactual judgments. Across tasks and statement types, we find that while models perform well on isolated rule verification, performance degrades sharply for rule discrimination and multi-violation diagnosis. FinRule-Bench provides a principled and reproducible testbed for studying rule-governed reasoning, diagnostic coverage, and failure modes of LLMs in high-stakes financial analysis.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融分析にますます適用されているが、明示的な会計原則の下で構造化された財務諸表を監査する能力はいまだに不十分である。
既存のベンチマークは、主に、合成的に破損したデータに対する質問応答、数値推論、または異常検出を評価しており、モデルが正しい財務諸表に対するルールコンプライアンスを確実に検証またはローカライズできるかどうかは不明である。
実世界の財務表上でのルールベースの財務推論における診断完全性を評価するためのベンチマークであるFinRule-Benchを紹介する。
FinRule-Benchは、明確な人為的な会計原則と、バランスシート、キャッシュフローステートメント、所得ステートメント、エクイティのステートメントの4つの標準ステートメントタイプを組み合わせている。
ベンチマークでは、段階的に強力な推論機能を必要とする3つの監査タスクを定義している。
一 ルール検証であって、単一の原則を遵守すること。
二 規定された規則セットから違反した原則を選択する必要がある規則識別
三 複数同時違反を記録レベルで検出し、位置決めすることを要する共同規則診断。
我々は、ゼロショットと少数ショットのプロンプトの下でLCMを評価し、意思決定、説明、および反事実判断の一貫性を強制する因果関係推論プロトコルを導入する。
タスクやステートメントタイプ全体では、モデルが独立したルール検証でうまく機能するのに対して、性能はルールの識別やマルチ違反の診断のために著しく低下することがわかった。
FinRule-Benchは、ルールが支配する推論、診断カバレッジ、LCMの障害モードを研究するための、原則的で再現可能なテストベッドを提供する。
関連論文リスト
- fEDM+: A Risk-Based Fuzzy Ethical Decision Making Framework with Principle-Level Explainability and Pluralistic Validation [0.0]
説明可能性とトレーサビリティーモジュール(ETM)を導入し、それぞれの倫理的決定ルールと根底にある道徳的原則を明示的に結びつける。
単一参照検証を多元的セマンティック検証フレームワークに置き換える。
その結果、fEDM+と呼ばれる拡張されたfEDMは、解釈可能性とステークホルダー認識の検証を向上しつつ、形式的な検証性を保っている。
論文 参考訳(メタデータ) (2026-02-25T09:58:14Z) - Evaluating LLMs in Finance Requires Explicit Bias Consideration [88.38155218924999]
ファイナンス固有のバイアスは、パフォーマンスを低下させ、バックテストを汚染し、報告された結果をデプロイメントのクレームに役に立たないものにする。
一つのバイアスが28%以上の研究で議論されることはない。
本稿では,バイアス診断と将来のシステム設計のための最小限の要件を満たす構造的妥当性フレームワークと評価チェックリストを提案する。
論文 参考訳(メタデータ) (2026-02-15T17:02:01Z) - SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs [40.216867348210265]
FinAuditingは、財務監査タスクを評価するための最初の分類基準であり、構造を意識したマルチドキュメントのベンチマークである。
本物のアメリカ製である。
FinAuditingは3つの補完的なサブタスク、セマンティック一貫性のためのFinSM、リレーショナル一貫性のためのFinRE、数値一貫性のためのFinMRを定義している。
13の最先端のLCMに関する大規模なゼロショット実験は、現在のモデルが意味論、関係論、数学的次元で矛盾なく機能することを明らかにする。
論文 参考訳(メタデータ) (2025-10-10T00:41:55Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Automating Financial Statement Audits with Large Language Models [8.568971444669868]
ファイナンシャルステートメント監査を自動化するために,大規模言語モデル(LLM)を活用している。
本研究は、実世界の財務表と合成トランザクションデータを組み合わせた、キュレートされたデータセットを用いたベンチマークを提案する。
我々のテストでは、現在最先端のLLMが、過去のトランザクションデータを与えられたときの財務諸表の誤りを識別することに成功した。
論文 参考訳(メタデータ) (2025-06-14T17:07:06Z) - FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - Towards Competent AI for Fundamental Analysis in Finance: A Benchmark Dataset and Evaluation [5.892346584607669]
ファイナンシャルステートメント分析に着目したベンチマークデータセットであるFinAR-Benchを提案する。
重要な情報を抽出し、財務指標を計算し、論理的推論を適用する。
本研究は, 基礎解析におけるLLMの現在の強度と限界を明確に把握するものである。
論文 参考訳(メタデータ) (2025-05-22T07:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。