論文の概要: FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models
- arxiv url: http://arxiv.org/abs/2507.20930v2
- Date: Wed, 30 Jul 2025 17:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.386687
- Title: FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models
- Title(参考訳): FRED: 言語モデルにおける財務検索による幻覚の検出と編集
- Authors: Likun Tan, Kuan-Wei Huang, Kevin Wu,
- Abstract要約: 大規模言語モデルにおける幻覚は、事実的信頼性を必要とするアプリケーションにとって重要な課題である。
本研究は,モデル生成応答における事実的誤りコンテンツの検出と編集に有効な手法を提案する。
- 参考スコア(独自算出の注目度): 1.9894117371899613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in large language models pose a critical challenge for applications requiring factual reliability, particularly in high-stakes domains such as finance. This work presents an effective approach for detecting and editing factually incorrect content in model-generated responses based on the provided context. Given a user-defined domain-specific error taxonomy, we construct a synthetic dataset by inserting tagged errors into financial question-answering corpora and then fine-tune four language models, Phi-4, Phi-4-mini, Qwen3-4B, and Qwen3-14B, to detect and edit these factual inaccuracies. Our best-performing model, fine-tuned Phi-4, achieves an 8% improvement in binary F1 score and a 30% gain in overall detection performance compared to OpenAI-o3. Notably, our fine-tuned Phi-4-mini model, despite having only 4 billion parameters, maintains competitive performance with just a 2% drop in binary detection and a 0.1% decline in overall detection compared to OpenAI-o3. Our work provides a practical solution for detecting and editing factual inconsistencies in financial text generation while introducing a generalizable framework that can enhance the trustworthiness and alignment of large language models across diverse applications beyond finance. Our code and data are available at https://github.com/pegasi-ai/shield.
- Abstract(参考訳): 大規模言語モデルにおける幻覚は、特に金融のような高度な領域において、事実的信頼性を必要とするアプリケーションにとって重要な課題となる。
本研究は,提案した文脈に基づいて,モデル生成応答における事実的誤りコンテンツの検出と編集に有効なアプローチを提案する。
ユーザ定義のドメイン固有のエラー分類を前提として,タグ付きエラーを財務質問問合せコーパスに挿入し,Phi-4,Phi-4-mini,Qwen3-4B,Qwen3-14Bの4言語モデルを用いて合成データセットを構築し,これらの事実不正確さを検出し,編集する。
最適性能モデルであるPhi-4は、OpenAI-o3と比較して、バイナリF1スコアが8%改善し、全体的な検出性能が30%向上した。
特に、我々の微調整されたPhi-4-miniモデルは、40億のパラメータしか持たないにもかかわらず、バイナリ検出の2%の低下とOpenAI-o3に比べて全体的な検出の0.1%の減少で競合性能を維持している。
本研究は,ファイナンシャルテキスト生成における現実的不整合の検出と編集を行うための実践的ソリューションを提供するとともに,ファイナンシャル以外の多様なアプリケーションにおける大規模言語モデルの信頼性と整合性を高めるための一般化可能なフレームワークを導入する。
私たちのコードとデータはhttps://github.com/pegasi-ai/shield.comで公開されています。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - $C^3$: Confidence Calibration Model Cascade for Inference-Efficient
Cross-Lingual Natural Language Understanding [28.853593305486832]
言語間自然言語理解(NLU)は自然言語処理(NLP)において重要な課題である
近年,多言語事前学習言語モデル (mPLM) の進歩により,これらのタスクの性能が著しく向上している。
既存のモデルカスケード法は、様々なモデルから電流入力を処理できる最も軽量なモデルを選択して、推論効率を向上させる。
論文 参考訳(メタデータ) (2024-02-25T05:07:56Z) - FinLLM-B: When Large Language Models Meet Financial Breakout Trading [13.465954970263502]
FinLLM-Bはファイナンシャル・ブレークアウト検出のための主要な言語モデルである。
我々は,大規模言語モデル,すなわち多段階構造のための新しいフレームワークを開発した。
GPT-3.5と比較して、FinLLM-Bは回答の平均精度を49.97%改善し、多段構造は9.72%改善に寄与した。
論文 参考訳(メタデータ) (2024-02-12T10:04:07Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。