論文の概要: FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in finance
- arxiv url: http://arxiv.org/abs/2508.05201v1
- Date: Thu, 07 Aug 2025 09:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.792804
- Title: FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in finance
- Title(参考訳): FAITH:ファイナンスにおける内在的タブラル・ハロシン評価フレームワーク
- Authors: Mengao Zhang, Jiayu Fu, Tanya Warrier, Yuwen Wang, Tianhui Tan, Ke-wei Huang,
- Abstract要約: 金融に大規模言語モデル(LLM)をデプロイする上で、幻覚は依然として重要な課題である。
金融LLMにおける内因性幻覚を評価するための厳密でスケーラブルなフレームワークを開発する。
私たちの仕事は、より信頼性が高く信頼性の高い財務生成AIシステムを構築するための重要なステップとして役立ちます。
- 参考スコア(独自算出の注目度): 0.06597195879147556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination remains a critical challenge for deploying Large Language Models (LLMs) in finance. Accurate extraction and precise calculation from tabular data are essential for reliable financial analysis, since even minor numerical errors can undermine decision-making and regulatory compliance. Financial applications have unique requirements, often relying on context-dependent, numerical, and proprietary tabular data that existing hallucination benchmarks rarely capture. In this study, we develop a rigorous and scalable framework for evaluating intrinsic hallucinations in financial LLMs, conceptualized as a context-aware masked span prediction task over real-world financial documents. Our main contributions are: (1) a novel, automated dataset creation paradigm using a masking strategy; (2) a new hallucination evaluation dataset derived from S&P 500 annual reports; and (3) a comprehensive evaluation of intrinsic hallucination patterns in state-of-the-art LLMs on financial tabular data. Our work provides a robust methodology for in-house LLM evaluation and serves as a critical step toward building more trustworthy and reliable financial Generative AI systems.
- Abstract(参考訳): 金融に大規模言語モデル(LLM)をデプロイする上で、幻覚は依然として重要な課題である。
グラフデータからの正確な抽出と正確な計算は、微少な数値誤差でさえ意思決定や規制遵守を損なう可能性があるため、信頼できる財務分析に不可欠である。
金融アプリケーションには独自の要件があり、しばしば既存の幻覚ベンチマークがほとんど捉えない文脈依存、数値、および独自の表データに依存している。
本研究では,現実の財務文書上でのコンテキスト認識型マスマス予測タスクとして概念化された金融LLMにおける本質的な幻覚を評価するための,厳密でスケーラブルなフレームワークを開発する。
主な貢献は,(1)マスキング戦略を用いた新しい自動データセット作成パラダイム,(2)S&P 500 年次報告書から得られた新たな幻覚評価データセット,(3)金融表データに基づく最先端のLCMにおける本質的な幻覚パターンの包括的評価である。
私たちの研究は、社内でのLCM評価のための堅牢な方法論を提供し、より信頼性が高く信頼性の高い財務生成AIシステムを構築するための重要なステップとして役立ちます。
関連論文リスト
- EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements [7.259647868714988]
EDINET-Benchは,大規模言語モデル(LLM)の性能を評価するための,オープンソースの日本語金融ベンチマークである。
我々の実験は、最先端のLLMでさえも、不正検出と利益予測のためのバイナリ分類において、ロジスティック回帰よりもわずかに優れた性能を発揮していることを示している。
我々のデータセット、ベンチマーク構築コード、評価コードは、LLMによる将来の金融研究を促進するために公開されています。
論文 参考訳(メタデータ) (2025-06-10T13:03:36Z) - QuantMCP: Grounding Large Language Models in Verifiable Financial Reality [0.43512163406552007]
大規模言語モデル(LLM)は、財務分析と意思決定に革命をもたらすという大きな約束を持っている。
しかし、その直接的な適用は、データ幻覚の問題や、リアルタイムで検証可能な財務情報へのアクセスの欠如によって、しばしば妨げられている。
本稿では,金融現実にLLMを厳格に活用するための新しいフレームワークであるQuantMCPを紹介する。
論文 参考訳(メタデータ) (2025-06-07T01:52:39Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - ZiGong 1.0: A Large Language Model for Financial Credit [8.49779245416985]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクにおいて高い性能を示している。
しかし、金融信用評価の応用における効果は、依然として準最適である。
マルチタスク制御による微調整により強化されたMistralベースのモデルであるZiGongを提案する。
論文 参考訳(メタデータ) (2025-02-22T09:27:56Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。