Fugu-MT 論文翻訳(概要): FactCheckmate: Preemptively Detecting and Mitigating Hallucinations in LMs

論文の概要: FactCheckmate: Preemptively Detecting and Mitigating Hallucinations in LMs

arxiv url: http://arxiv.org/abs/2410.02899v1
Date: Thu, 3 Oct 2024 18:45:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 05:05:01.690904
Title: FactCheckmate: Preemptively Detecting and Mitigating Hallucinations in LMs
Title（参考訳）: FactCheckmate: LMにおける幻覚の予防的検出と緩和
Authors: Deema Alnuhait, Neeraja Kirtane, Muhammad Khalifa, Hao Peng,
Abstract要約: 言語モデル (LM) は幻覚を呈する。この研究は、LMの内部表現が、この目的のために使用できるリッチな信号を提供することを示すことによって、この研究課題を肯定的に答える。 FactCheckMateを導入し、LMが幻覚するかどうかを予測する分類器を学習して幻覚を事前に検出する。幻覚が検出されると、FactCheckMateが介入し、LMの隠れ状態を調整することで、モデルがより現実的な出力を生成する。
参考スコア（独自算出の注目度）: 21.767886997853022
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models (LMs) hallucinate. We inquire: Can we detect and mitigate hallucinations before they happen? This work answers this research question in the positive, by showing that the internal representations of LMs provide rich signals that can be used for this purpose. We introduce FactCheckMate, which preemptively detects hallucinations by learning a classifier that predicts whether the LM will hallucinate, based on the model's hidden states produced over the inputs, before decoding begins. If a hallucination is detected, FactCheckMate then intervenes, by adjusting the LM's hidden states such that the model will produce more factual outputs. FactCheckMate provides fresh insights that the inner workings of LMs can be revealed by their hidden states. Practically, both the detection and mitigation models in FactCheckMate are lightweight, adding little inference overhead; FactCheckMate proves a more efficient approach for mitigating hallucinations compared to many post-hoc alternatives. We evaluate FactCheckMate over LMs of different scales and model families (including Llama, Mistral, and Gemma), across a variety of QA datasets from different domains. Our results demonstrate the effectiveness of leveraging internal representations for early hallucination detection and mitigation, achieving over 70% preemptive detection accuracy. On average, outputs generated by LMs with intervention are 34.4% more factual compared to those without intervention. The average overhead difference in the inference time introduced by FactCheckMate is around 3.16 seconds.
Abstract（参考訳）: 言語モデル(LM)は幻覚である。幻覚を検知し、それが起こる前に緩和できるだろうか? この研究は、LMの内部表現が、この目的のために使用できるリッチな信号を提供することを示すことによって、この研究課題を肯定的に答える。 FactCheckMateを導入し、復号開始前にモデル上に生成した隠れ状態に基づいてLMが幻覚するかどうかを予測する分類器を学習して幻覚を事前に検出する。幻覚が検出されると、FactCheckMateが介入し、LMの隠れ状態を調整することで、モデルがより現実的な出力を生成する。 FactCheckMateは、LMの内部動作が隠された状態によって明らかにできるという新たな洞察を提供する。実際には、FactCheckMateの検出と緩和モデルは軽量であり、推測オーバーヘッドが少なく、FactCheckMateは、多くのポストホック代替品と比較して幻覚を緩和するより効率的なアプローチである。異なるスケールのLMとモデルファミリー(Llama、Mistral、Gemmaを含む)のFactCheckMateを、異なるドメインの様々なQAデータセットで評価する。本研究は,早期幻覚検出および緩和のための内部表現の活用の有効性を実証し,70%以上のプリエンプティブ検出精度を達成した。平均して、介入したLMが生成する出力は、介入していないものよりも34.4%多い。 FactCheckMateが導入した推論時間の平均オーバーヘッド差は約3.16秒である。

関連論文リスト

Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文参考訳（メタデータ） (2025-08-03T17:29:48Z)
FactSelfCheck: Fact-Level Black-Box Hallucination Detection for LLMs [8.820670807424174]
大規模言語モデル(LLM)は、しばしば幻覚的コンテンツを生成する。 FactSelfCheckは,ファクトレベルのきめ細かな検出が可能なブラックボックスサンプリング方式である。我々のアプローチは、三重項の形で事実からなる知識グラフとしてテキストを表現している。
論文参考訳（メタデータ） (2025-03-21T15:32:24Z)
Trust Me, I'm Wrong: High-Certainty Hallucinations in LLMs [45.13670875211498]
LLM(Large Language Models)はしばしば、幻覚として知られる実世界の事実に根ざしていない出力を生成する。モデルが正しい知識を持つ場合でも、高い確実性で幻覚できることを示す。
論文参考訳（メタデータ） (2025-02-18T15:46:31Z)
The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States [0.5573267589690007]
我々は、トレーニングで使われていない情報を含む幻覚に焦点を当て、それは、カットオフ後の情報を確実にするために、正確性を用いて決定する。本研究では,様々な言語モデルの内部状態を用いて,これらの幻覚を文レベルで検出する。以上の結果から,IAVはCEVと同じくらい効果的に幻覚を検知し,解答可能なプロンプトと解答不能なプロンプトは別個の分類器としてコード化されていることが明らかとなった。
論文参考訳（メタデータ） (2024-12-22T15:08:24Z)
Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability [83.0884072598828]
幻覚は多くの形式があり、普遍的に受け入れられる定義はない。トレーニングセットにおいて、正しい回答が冗長に現れるような幻覚のみを研究することに集中する。固定されたデータセットの場合、より大きく長く訓練されたLMは幻覚を少なくする。固定されたLMの出力の検出器サイズが向上するのに対して、LMのスケールと幻覚の検出可能性との間には逆の関係がある。
論文参考訳（メタデータ） (2024-08-14T23:34:28Z)
Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文参考訳（メタデータ） (2024-05-28T23:36:00Z)
On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。正しい解答知識を持つLLMの現象を推論力学の観点から検討する。我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文参考訳（メタデータ） (2024-03-29T06:48:30Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
Alleviating Hallucinations of Large Language Models through Induced Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文参考訳（メタデータ） (2023-12-25T12:32:49Z)
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文参考訳（メタデータ） (2023-11-22T04:52:58Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。