Fugu-MT 論文翻訳(概要): FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification

論文の概要: FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification

arxiv url: http://arxiv.org/abs/2605.29586v1
Date: Thu, 28 May 2026 08:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.070971
Title: FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification
Title（参考訳）: FinVerBench: 大規模言語モデルファイナンシャルステートメント検証におけるベンチマークの妥当性と校正
Authors: Silu Panda,
Abstract要約: FinVerBenchは、ファイナンシャルステートメント検証のためのベンチマークおよび妥当性調査である。 SEC 10-K の S&P 500 社への提出書類から作成されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce FinVerBench, a benchmark and validity study for financial statement verification: determining whether a set of corporate financial statements is numerically consistent from the information shown to the model. FinVerBench is built from SEC 10-K XBRL filings for 43 S&P 500 companies and defines a four-category error taxonomy covering arithmetic, cross-statement linkage, year-over-year, and magnitude perturbations. We attempt fifteen contemporary LLM evaluations and report fourteen complete runs; a Gemini 2.5 Pro run is excluded from the main comparison because 40/108 gateway calls failed. All binary metrics exclude underdetermined positive instances whose perturbed line item is not rendered, leaving a 105-instance observable diagnostic subset (43 clean, 62 error-injected). Under the original guided-checklist prompt on the unrounded diagnostic subset, nine of fourteen complete LLM runs produce 95-100% false positives on clean statements, while one run achieves 0% observed false positives. Benchmark rendering choices materially affect measured recall: on a realistic rounded variant of the same observable subset, the calibrated model's recall is 79.0% with 0% observed FPR, compared with 100.0% recall on the unrounded diagnostic variant. These results support a construct-validity conclusion rather than a final leaderboard: financial statement verification is not merely arithmetic detection, but calibrated judgment under incomplete observability, prompt-induced assumptions, and realistic numerical rendering. FinVerBench and all code are publicly available.
Abstract（参考訳）: 我々はFinVerBenchを紹介した。FinVerBenchは、企業財務諸表の集合がモデルに示される情報と数値的に一致しているかどうかを判定する、財務諸表検証のためのベンチマークおよび妥当性調査である。 FinVerBenchは、S&P 500社43社に対するSEC 10-K XBRLの申請書から構築され、算術、クロスステートメントリンク、年次、マグニチュードの摂動をカバーする4つのカテゴリのエラー分類を定義している。 40/108のゲートウェイ呼び出しが失敗したため、Gemini 2.5 Proの実行はメインの比較から除外される。すべてのバイナリメトリクスは、105インスタンスの可観測診断サブセット(43のクリーン、62のエラー注入)を残さずに、乱れ線項目が描画されない未決定の正のインスタンスを除外する。未解決の診断サブセットに対するガイド付きチェックリストのプロンプトでは、14の完全なLCMのうち9つの実行がクリーンステートメントに対して95-100%の偽陽性を発生し、1つの実行は0%の偽陽性を達成している。ベンチマークレンダリングの選択は測定されたリコールに大きく影響する:同じ観測可能なサブセットの現実的なラウンドド・バリアントでは、キャリブレーションされたモデルのリコールは79.0%、観測されたFPRは0%、未確認のリコールは100.0%である。これらの結果は、ファイナンシャルステートメントの検証は単なる算術的検出ではなく、不完全な観測可能性の下でのキャリブレーションによる判断、迅速な仮定、現実的な数値レンダリングである。 FinVerBenchとすべてのコードが公開されている。

関連論文リスト

ContractBench: Can LLM Agents Preserve Observation Contracts? [9.057486468322933]
観察契約の遵守は、緊急かつ回帰的な能力であることを示す。 ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。 i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
論文参考訳（メタデータ） (2026-05-17T06:37:04Z)
Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文参考訳（メタデータ） (2026-05-13T13:07:50Z)
What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models [0.0]
シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。 15モデルオープンウェイトコーパスの評価を行い,5つの分類と推論ベンチマークによる10のインストラクトモデルに着目した信頼性解析を行った。まず、評価設計は結論を根本的に変えることができる。第2に、信頼信号は脆弱である。MMLU-Proでは、各プライマリモデルは、その精度と同一行上のトークン確率信頼の両方よりもかなり高い信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
論文参考訳（メタデータ） (2026-05-03T20:05:08Z)
LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。 CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文参考訳（メタデータ） (2026-05-02T11:31:33Z)
Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report [0.0]
PAIとMMPI-3からメタ認知プローブデータに適用する。 6つの妥当性指標が運用されている: L(エラーに対する信頼を維持する)、K(エラーに賭ける)、F(コンセンサスに適合した項目を引き出す)、Fp(正しい回答を引き出す)、RBS(逆モニタリング)、TRIN。
論文参考訳（メタデータ） (2026-04-20T01:42:54Z)
When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning [16.505918019260964]
信頼性と信頼性の低い予測を混合することにより,最先端モデル(Qwen2.5-Math-7B)の精度が61%向上することが実証された。正しい予測の18.4%は安定で忠実な推論を採用しており、81.6%は計算的に一貫性のない経路を通して現れる。
論文参考訳（メタデータ） (2026-03-03T19:43:36Z)
Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文参考訳（メタデータ） (2026-01-17T19:47:55Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。 VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文参考訳（メタデータ） (2025-05-17T04:16:36Z)
Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。 12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文参考訳（メタデータ） (2024-11-05T01:11:28Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。