論文の概要: FinGround: Detecting and Grounding Financial Hallucinations via Atomic Claim Verification
- arxiv url: http://arxiv.org/abs/2604.23588v1
- Date: Sun, 26 Apr 2026 07:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.449859
- Title: FinGround: Detecting and Grounding Financial Hallucinations via Atomic Claim Verification
- Title(参考訳): FinGround:アトミック・クレームの検証による金融幻覚の検出と接地
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: FinGroundは、ファイナンシャルドキュメントQAのための検証済みの地上パイプラインである。
ステージ1は、テキストとテーブル上でファイナンス対応のハイブリッド検索を行う。
ステージ2は6種類の財政分類で分類された原子的主張に答えを分解する。
ステージ3は、段落とテーブルセルレベルの引用で、サポートされたクレームを書き換える。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial AI systems must produce answers grounded in specific regulatory filings, yet current LLMs fabricate metrics, invent citations, and miscalculate derived quantities. These errors carry direct regulatory consequences as the EU AI Act's high-risk enforcement deadline approaches (August 2026). Existing hallucination detectors treat all claims uniformly, missing 43% of computational errors that require arithmetic re-verification against structured tables. We present FinGround, a three-stage verify-then-ground pipeline for financial document QA. Stage 1 performs finance-aware hybrid retrieval over text and tables. Stage 2 decomposes answers into atomic claims classified by a six-type financial taxonomy and verified with type-routed strategies including formula reconstruction. Stage 3 rewrites unsupported claims with paragraph- and table-cell-level citations. To cleanly isolate verification value from retrieval quality, we propose retrieval-equalized evaluation as standard methodology for RAG verification research: when all systems receive identical retrieval, FinGround still reduces hallucination rates by 68% over the strongest baseline ($p < 0.01$). The full pipeline achieves a 78% reduction relative to GPT-4o. An 8B distilled detector retains 91.4% F1 at 18x lower per-claim latency, enabling $0.003/query deployment, supported by qualitative signals from a four-week analyst pilot.
- Abstract(参考訳): 金融AIシステムは、特定の規制申請に基づく回答を生成する必要があるが、現在のLLMはメトリクスを作成し、引用を発明し、派生した量の誤計算を行う。
これらのエラーは、EU AI Actのハイリスク執行期限(2026年8月)が近づくにつれて、直接的な規制上の結果をもたらす。
既存の幻覚検出器は全てのクレームを均一に扱い、構造化テーブルに対する算術的再検証を必要とする計算誤差の43%を欠いている。
ファイナンシャル文書QAのための3段階検証地上パイプラインであるFinGroundを紹介する。
ステージ1は、テキストとテーブル上でファイナンス対応のハイブリッド検索を行う。
第2段階は、6種類の財政分類で分類された原子的クレームに回答を分解し、公式の再構築を含む型引き抜き戦略で検証する。
ステージ3は、段落とテーブルセルレベルの引用で、サポートされたクレームを書き換える。
RAG検証研究の標準手法として,全てのシステムが同一の検索を受けた場合,FinGroundは最強のベースライン(p<0.01$)に対して,幻覚率を68%削減する。
全パイプラインはGPT-4oに対して78%の削減を実現している。
8B蒸留検出器はF1を18倍の遅延時間で91.4%保ち、4週間のアナリストパイロットによる定性的な信号で支えられた0.003ドル/クエリの展開を可能にした。
関連論文リスト
- ComplianceNLP: Knowledge-Graph-Augmented RAG for Multi-Framework Regulatory Gap Detection [13.891522069967507]
金融機関は毎年6万件以上の規制イベントを運営している。
業界は2008年の金融危機以来、罰金と決済で3億ドル以上を支払っている。
規制変更を自動的に監視し、構造化された義務を抽出し、コンプライアンスギャップを識別するエンドツーエンドシステムであるComplianceNLPを提案する。
論文 参考訳(メタデータ) (2026-04-26T07:44:50Z) - AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking [13.891522069967507]
本稿では,エージェント実行を指向非巡回グラフ(DAG)として形式化するフレームワークであるAgentEvalを提案する。
AgentEvalは、エンドツーエンドの評価よりも2.17倍高いエラー検出リコールを実現し、72%の根本原因精度を81%の天井に対して達成している。
論文 参考訳(メタデータ) (2026-04-26T07:38:47Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection [0.0]
Budget-Sensitive Discovery Score (BSDS)は、各予算レベルで誤った発見を罰する。
Discovery Quality Score (DQS)は、チェリーピックされた予算でうまく機能することで、プロジェクタがインフレできないような、単一のサマリー統計を提供する。
フレームワークは、候補が予算制約と非対称なエラーコストの下で選択される任意の設定に適用されます。
論文 参考訳(メタデータ) (2026-03-12T18:09:53Z) - FinReflectKG -- HalluBench: GraphRAG Hallucination Benchmark for Financial Question Answering Systems [0.0]
現在の知識グラフ(KG)によるQAシステムは幻覚を検出するための体系的なメカニズムを欠いている。
SEC10-K申請に対するKG強化財務QAにおける幻覚検出手法を評価するためのベンチマークであるFinBench-QA-Hallucinationを紹介する。
本研究は、現在のKG強化システムにおける脆弱性を浮き彫りにし、信頼性の高い金融情報システムを構築するための洞察を提供する。
論文 参考訳(メタデータ) (2026-03-11T04:37:53Z) - Evaluating LLMs in Finance Requires Explicit Bias Consideration [88.38155218924999]
ファイナンス固有のバイアスは、パフォーマンスを低下させ、バックテストを汚染し、報告された結果をデプロイメントのクレームに役に立たないものにする。
一つのバイアスが28%以上の研究で議論されることはない。
本稿では,バイアス診断と将来のシステム設計のための最小限の要件を満たす構造的妥当性フレームワークと評価チェックリストを提案する。
論文 参考訳(メタデータ) (2026-02-15T17:02:01Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Precise Information Control in Long-Form Text Generation [107.83171105517863]
提案手法は,短時間の自己完結文のセットで与えられた長文の出力をモデルで生成することを必要とするタスクの定式化である。
PICには、完全に全ての入力クレームを含むモデルの能力をテストする完全な設定と、関連するクレームのみを選択的に組み込む必要がある部分的な設定が含まれている。
提案するPIC-Benchは,PIC設定に適合する8つの長文生成タスクのベンチマークである。
論文 参考訳(メタデータ) (2025-06-06T23:42:42Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。