論文の概要: AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification
- arxiv url: http://arxiv.org/abs/2606.03031v1
- Date: Tue, 02 Jun 2026 02:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.690315
- Title: AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification
- Title(参考訳): AUDITFLOW:構造化金融報告検証のための実行可能なシンボリック環境
- Authors: Yan Wang, Xuguang Ai, Jaisal Patel, Xueqing Peng, Fengran Mo, Yupeng Cao, Haohang Li, Mingyu Cao, Lingfei Qian, Víctor Gutiérrez-Basulto,
- Abstract要約: AuditFlowは、アダプティブ検索と検証を分離するグラフグラウンドのマルチエージェントフレームワークである。
2人の若手監査官が各事件を規制及び明確な見解から検査し、上級監査官が意見の相違を解消し、さらなる調査を要求することができる。
最終報告は、明らかな集計を通じて融合され、監査の評決、期待値、エビデンス・トレイル、スコアを生成する。
- 参考スコア(独自算出の注目度): 19.94244675257689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured financial audit verification is difficult for language-model agents because correctness depends on structured evidence rather than text alone. A model must link reported facts to taxonomy concepts, traverse calculation or dimensional relations, and recompute expected values before applying an audit rule. We propose AuditFlow, a graph-grounded multi-agent framework that separates adaptive search from deterministic verification. AuditFlow builds a symbolic environment from a static US-GAAP taxonomy graph and a dynamic XBRL filing graph, and exposes it through typed tools for fact retrieval, taxonomy traversal, numerical checking, and rule evaluation. Two junior auditors inspect each case from regulatory and evidentiary views, while a senior auditor resolves disagreements and can request further investigation. The final reports are fused through evidential aggregation to produce an audit verdict, expected value, evidence trail, and trustworthiness score. On a FinAuditing-derived FinMR sample, AuditFlow reaches 82.09% joint audit accuracy under GPT-5.5, outperforming the strongest baseline by 14.93 points. Removing deterministic checks drops accuracy to 17.91%, showing that the symbolic environment performs the verification step that the model cannot reliably replace.
- Abstract(参考訳): 言語モデルエージェントにとって構造的財務監査の検証は困難である。
モデルは、報告された事実を分類学の概念、トラバース計算または次元関係にリンクさせ、監査ルールを適用する前に期待値を再計算しなければならない。
本稿では,適応探索を決定論的検証から分離するグラフ基底型マルチエージェントフレームワークであるAuditFlowを提案する。
AuditFlowは、静的なUS-GAAP分類グラフと動的XBRL申請グラフから象徴的な環境を構築し、事実検索、分類トラバーサル、数値チェック、ルール評価のための型付きツールを通じて公開する。
2人の若手監査官が各事件を規制及び明確な見解から検査し、上級監査官が意見の相違を解消し、さらなる調査を要求することができる。
最終報告は明白な集計を通じて融合され、監査の評決、期待値、証拠の痕跡、信頼度スコアが作成される。
FinAuditing由来のFinMRサンプルでは、AuditFlowはGPT-5.5で82.09%のジョイント監査精度に達し、最強のベースラインを14.93ポイント上回った。
決定論的チェックの削除は精度を17.91%に低下させ、シンボリック環境がモデルが確実に置き換えられない検証ステップを実行することを示す。
関連論文リスト
- FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search [88.16262636915975]
FineVerifyはエージェント検索のためのきめ細かい自己検証フレームワークである。
各質問をチェック可能なサブクエストに分解し、サンプル候補を検証し、最も高い集計スコアの候補を選択する。
FineVerifyは、標準のスケーリングベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-30T10:21:20Z) - Auditable Decision Models with Learned Abstention and Real-Time Steering [6.287457666346811]
生産AIシステムは、不完全、矛盾、あるいは不十分な証拠で運用されることが多い。
我々は,不確実性が明確でなければならないAIシステムの運用上の決定制御について検討する。
本稿では,YES,NO,TBDを予測する境界決定制御モデルであるEvaluatorDPTを提案する。
論文 参考訳(メタデータ) (2026-05-26T23:37:56Z) - Targeted Tests for LLM Reasoning: An Audit-Constrained Protocol [0.9805949492148788]
対象推論評価のための監査制約付きプロトコルを提案する。
楽譜に基づく決定型サンプリングであるCAPS(Component Prompt Smpling)をプロンプトコンポーネント上でインスタンス化し、等予算の均一なコンポーネントサンプリングと比較する。
論文 参考訳(メタデータ) (2026-05-12T06:26:22Z) - Automated Population-Level Audit Assurance via AI-Based Document Intelligence [0.0]
監査トランザクションテストは、内部記録システムに対する顧客向けステートメントの正確性と完全性を検証する。
従来の手作業による、非構造化PDFステートメントのサンプルベースのレビューは、労働集約的であり、数百万のトランザクションにスケールしない。
本稿では,AIを用いた文書インテリジェンスを用いた大規模監査トランザクションテストの自動フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-05T19:17:18Z) - FinReporting: An Agentic Workflow for Localized Reporting of Cross-Jurisdiction Financial Disclosures [39.77510496944984]
本稿では、FinReportingについて紹介する。FinReportingは、ローカライズド・クロス・アグリゲーション・ファイナンシャル・レポートのためのエージェントワークフローである。
このシステムは、所得計算、バランスシート、キャッシュフローに統一された標準オントロジーを構築する。
これは、レポートをファイリング取得、抽出、標準マッピング、異常ロギングを含む監査可能なステージに分解する。
論文 参考訳(メタデータ) (2026-04-07T15:00:01Z) - IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation [49.796717294455796]
経済的なモチベーションのある逸脱を検出するための実践的な監査フレームワークIMMACULATEを提案する。
IMMACULATEは、検証可能な計算を用いて少数のリクエストを選択的に監査し、暗号オーバーヘッドを償却しながら強力な検出保証を達成する。
論文 参考訳(メタデータ) (2026-02-26T07:21:02Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - Auditing Fairness under Model Updates: Fundamental Complexity and Property-Preserving Updates [18.205253587709525]
任意の更新の下でグループフェアネス監査について検討する。
本稿では,実証的財産最適化(EPO)に基づくPAC監査のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T16:28:11Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。