論文の概要: FactCheckmate: Preemptively Detecting and Mitigating Hallucinations in LMs
- arxiv url: http://arxiv.org/abs/2410.02899v2
- Date: Tue, 24 Jun 2025 19:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.439032
- Title: FactCheckmate: Preemptively Detecting and Mitigating Hallucinations in LMs
- Title(参考訳): FactCheckmate: LMにおける幻覚の予防的検出と緩和
- Authors: Deema Alnuhait, Neeraja Kirtane, Muhammad Khalifa, Hao Peng,
- Abstract要約: FactCheckmateを導入し,分類器の学習により幻覚を事前に検出する。
幻覚が検出されると、FactCheckmateはLMの隠れた状態を調整して介入する。
その結果,FactCheckmateの有効性が示され,70%以上のプリエンプティブ検出精度が得られた。
- 参考スコア(独自算出の注目度): 21.767886997853022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) hallucinate. We inquire: Can we detect and mitigate hallucinations before they happen? This work answers this research question in the positive, by showing that the internal representations of LMs provide rich signals that can be used for this purpose. We introduce FactCheckmate, which preemptively detects hallucinations by learning a classifier that predicts whether the LM will hallucinate, based on the model's hidden states produced over the inputs, before decoding begins. If a hallucination is detected, FactCheckmate then intervenes by adjusting the LM's hidden states such that the model will produce more factual outputs. FactCheckmate provides fresh insights that the inner workings of LMs can be revealed by their hidden states. Practically, both its detection and mitigation models are lightweight, adding little inference overhead; FactCheckmate proves a more efficient approach for mitigating hallucinations compared to many post-hoc alternatives. We evaluate FactCheckmate over LMs of different scales and model families (including Llama, Mistral, Qwen and Gemma), across a variety of QA datasets from different domains. Our results demonstrate the effectiveness of FactCheckmate, achieving over 70% preemptive detection accuracy. On average, outputs generated by LMs with intervention are 34.4% more factual compared to those without.
- Abstract(参考訳): 言語モデル(LM)は幻覚である。
幻覚を検知し、それが起こる前に緩和できるだろうか?
この研究は、LMの内部表現が、この目的のために使用できるリッチな信号を提供することを示すことによって、この研究課題を肯定的に答える。
本稿では,FactCheckmateについて紹介する。FactCheckmateは,復号開始前にモデル上に生成した隠れ状態に基づいて,LMが幻覚するかどうかを予測する分類器を学習して幻覚を事前に検出する。
幻覚が検出されると、FactCheckmateはLMの隠れ状態を調整することで介入し、モデルがより現実的な出力を生成する。
FactCheckmateは、LMの内部構造が隠された状態によって明らかにできるという新鮮な洞察を提供する。
FactCheckmateは、多くのポストホック代替品と比較して幻覚を緩和するためのより効率的なアプローチを証明している。
異なるスケールのLMとモデルファミリー(Llama、Mistral、Qwen、Gemmaを含む)のFactCheckmateを、異なるドメインの様々なQAデータセットで評価する。
その結果,FactCheckmateの有効性が示され,70%以上のプリエンプティブ検出精度が得られた。
平均して、介入したLMによって生成される出力は、非干渉の出力よりも34.4%多い。
関連論文リスト
- FactSelfCheck: Fact-Level Black-Box Hallucination Detection for LLMs [8.820670807424174]
大規模言語モデル(LLM)は、しばしば幻覚的コンテンツを生成する。
FactSelfCheckは,ファクトレベルのきめ細かな検出が可能なブラックボックスサンプリング方式である。
我々のアプローチは、三重項の形で事実からなる知識グラフとしてテキストを表現している。
論文 参考訳(メタデータ) (2025-03-21T15:32:24Z) - The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States [0.5573267589690007]
我々は、トレーニングで使われていない情報を含む幻覚に焦点を当て、それは、カットオフ後の情報を確実にするために、正確性を用いて決定する。
本研究では,様々な言語モデルの内部状態を用いて,これらの幻覚を文レベルで検出する。
以上の結果から,IAVはCEVと同じくらい効果的に幻覚を検知し,解答可能なプロンプトと解答不能なプロンプトは別個の分類器としてコード化されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-22T15:08:24Z) - Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability [83.0884072598828]
幻覚は多くの形式があり、普遍的に受け入れられる定義はない。
トレーニングセットにおいて、正しい回答が冗長に現れるような幻覚のみを研究することに集中する。
固定されたデータセットの場合、より大きく長く訓練されたLMは幻覚を少なくする。
固定されたLMの出力の検出器サイズが向上するのに対して、LMのスケールと幻覚の検出可能性との間には逆の関係がある。
論文 参考訳(メタデータ) (2024-08-14T23:34:28Z) - Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。