論文の概要: FinReflectKG -- HalluBench: GraphRAG Hallucination Benchmark for Financial Question Answering Systems
- arxiv url: http://arxiv.org/abs/2603.20252v1
- Date: Wed, 11 Mar 2026 04:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.936937
- Title: FinReflectKG -- HalluBench: GraphRAG Hallucination Benchmark for Financial Question Answering Systems
- Title(参考訳): FinReflectKG -- HalluBench: GraphRAG Hallucination Benchmark for Financial Question Answering Systems
- Authors: Mahesh Kumar, Bhaskarjit Sarmah, Stefano Pasquali,
- Abstract要約: 現在の知識グラフ(KG)によるQAシステムは幻覚を検出するための体系的なメカニズムを欠いている。
SEC10-K申請に対するKG強化財務QAにおける幻覚検出手法を評価するためのベンチマークであるFinBench-QA-Hallucinationを紹介する。
本研究は、現在のKG強化システムにおける脆弱性を浮き彫りにし、信頼性の高い金融情報システムを構築するための洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As organizations increasingly integrate AI-powered question-answering systems into financial information systems for compliance, risk assessment, and decision support, ensuring the factual accuracy of AI-generated outputs becomes a critical engineering challenge. Current Knowledge Graph (KG)-augmented QA systems lack systematic mechanisms to detect hallucinations - factually incorrect outputs that undermine reliability and user trust. We introduce FinBench-QA-Hallucination, a benchmark for evaluating hallucination detection methods in KG-augmented financial QA over SEC 10-K filings. The dataset contains 755 annotated examples from 300 pages, each labeled for groundedness using a conservative evidence-linkage protocol requiring support from both textual chunks and extracted relational triplets. We evaluate six detection approaches - LLM judges, fine-tuned classifiers, Natural Language Inference (NLI) models, span detectors, and embedding-based methods under two conditions: with and without KG triplets. Results show that LLM-based judges and embedding approaches achieve the highest performance (F1: 0.82-0.86) under clean conditions. However, most methods degrade significantly when noisy triplets are introduced, with Matthews Correlation Coefficient (MCC) dropping 44-84 percent, while embedding methods remain relatively robust with only 9 percent degradation. Statistical tests (Cochran's Q and McNemar) confirm significant performance differences (p < 0.001). Our findings highlight vulnerabilities in current KG-augmented systems and provide insights for building reliable financial information systems, where hallucinations can lead to regulatory violations and flawed decisions. The benchmark also offers a framework for integrating AI reliability evaluation into information system design across other high-stakes domains such as healthcare, legal, and government.
- Abstract(参考訳): AIによる質問応答システムをコンプライアンスやリスクアセスメント、意思決定支援といった金融情報システムに統合する組織が増えている中、AI生成されたアウトプットの事実的正確性を保証することが、重要なエンジニアリング課題となっている。
現在の知識グラフ(KG)によるQAシステムは、幻覚を検出するための体系的なメカニズムを欠いている。
SEC10-K申請に対するKG強化財務QAにおける幻覚検出手法を評価するためのベンチマークであるFinBench-QA-Hallucinationを紹介する。
データセットには300ページから755の注釈付きサンプルが含まれており、それぞれがテキストチャンクと抽出されたリレーショナルトリプレットの両方からのサポートを必要とする保守的なエビデンス・リンクプロトコルを使用してグラウンドドネスにラベル付けされている。
我々は,LLM判定器,微調整分類器,自然言語推論(NLI)モデル,スパン検出器,KG三重項を含む2つの条件下での埋め込みに基づく手法の6つの検出手法を評価する。
その結果, 清浄条件下では, LLMに基づく判断および埋め込み手法が最も高い性能(F1: 0.82-0.86)が得られることがわかった。
マシューズ相関係数 (MCC) は44~84パーセント低下する一方, 埋め込み法は9%の劣化率で比較的頑健である。
統計テスト (CochranのQとMcNemar) では、大きな性能差(p < 0.001)が確認された。
我々の発見は、現在のKG強化システムにおける脆弱性を浮き彫りにし、幻覚が規制違反や不当な判断につながる可能性のある信頼性の高い金融情報システムを構築するための洞察を提供する。
このベンチマークはまた、AI信頼性評価を医療、法務、政府など、他の高度な領域にまたがる情報システム設計に統合するためのフレームワークも提供する。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - FinReflectKG - EvalBench: Benchmarking Financial KG with Multi-Dimensional Evaluation [0.0]
FinReflectKG - EvalBenchは金融知識グラフのベンチマークおよび評価フレームワークである。
監査済みのトリプルをS&P 100ファイルのソースチャンクにリンクし、シングルパス、マルチパス、リフレクションエージェントベースの抽出モードをサポートする。
以上の結果から,LLM-as-Judgeプロトコルは,明示的なバイアス制御を備えると,人間のアノテーションに代わる信頼性とコスト効率のよい代替手段となることが示唆された。
論文 参考訳(メタデータ) (2025-10-07T09:22:48Z) - Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes [14.371259136517802]
戦略ゲームと情報損失の関連性を利用して, 根拠のないAIシステムの堅牢性について検討する。
我々は,情報理論のメカニズムが対向境界に抵抗するかを解析し,有限サンプル操作を拡張して,有界f-分岐系が攻撃下で維持されることを示す。
論文 参考訳(メタデータ) (2025-08-07T15:11:43Z) - Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。