論文の概要: When Bias Pretends to Be Truth: How Spurious Correlations Undermine Hallucination Detection in LLMs
- arxiv url: http://arxiv.org/abs/2511.07318v1
- Date: Mon, 10 Nov 2025 17:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.391095
- Title: When Bias Pretends to Be Truth: How Spurious Correlations Undermine Hallucination Detection in LLMs
- Title(参考訳): バイアスが真理を予知する時--LLMにおける無作為な相関はどのように幻覚検出を弱めるか
- Authors: Shaowen Wang, Yiqi Dong, Ruinian Chang, Tansheng Zhu, Yuebo Sun, Kaifeng Lyu, Jian Li,
- Abstract要約: 大規模言語モデル (LLM) は幻覚を呈し続けており, 妥当で誤った反応を生じている。
我々は、急激な相関によって引き起こされた、批判的だが未発見の幻覚のクラスを強調した。
信頼に基づくフィルタリングや内部状態探索のような既存の幻覚検出手法は、基本的には素早い相関の存在下で失敗する。
- 参考スコア(独自算出の注目度): 15.622799135126455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite substantial advances, large language models (LLMs) continue to exhibit hallucinations, generating plausible yet incorrect responses. In this paper, we highlight a critical yet previously underexplored class of hallucinations driven by spurious correlations -- superficial but statistically prominent associations between features (e.g., surnames) and attributes (e.g., nationality) present in the training data. We demonstrate that these spurious correlations induce hallucinations that are confidently generated, immune to model scaling, evade current detection methods, and persist even after refusal fine-tuning. Through systematically controlled synthetic experiments and empirical evaluations on state-of-the-art open-source and proprietary LLMs (including GPT-5), we show that existing hallucination detection methods, such as confidence-based filtering and inner-state probing, fundamentally fail in the presence of spurious correlations. Our theoretical analysis further elucidates why these statistical biases intrinsically undermine confidence-based detection techniques. Our findings thus emphasize the urgent need for new approaches explicitly designed to address hallucinations caused by spurious correlations.
- Abstract(参考訳): 大幅な進歩にもかかわらず、大きな言語モデル(LLM)は幻覚を呈し続けており、不正確な反応を生じさせる。
本稿は,学習データに含まれる特徴(例えば,姓)と属性(例えば,国籍)との間の表面的かつ統計的に顕著な関連性である,突発的な相関によって引き起こされた,これまで未解明であった幻覚の批判的クラスを強調した。
これらの急激な相関は、自信を持って生成される幻覚を誘発し、モデルスケーリングへの免疫、電流検出の回避、微調整の拒否後も持続することを示した。
現状のオープンソースおよびプロプライエタリなLCM(GPT-5を含む)に関する系統的に制御された合成実験と実証評価を通じて,信頼度に基づくフィルタリングや内部状態探索といった既存の幻覚検出手法が,急激な相関の存在下では根本的に失敗することを示す。
我々の理論的分析は、これらの統計的バイアスが本質的に信頼に基づく検出技術を損なう理由をさらに解明する。
以上の結果から,突発的相関による幻覚に対処する新たなアプローチの必要性が示唆された。
関連論文リスト
- HACK: Hallucinations Along Certainty and Knowledge Axes [66.66625343090743]
本稿では,2つの軸に沿って幻覚を分類する枠組みを提案する。
内部的に正しい知識を持っているにもかかわらず、モデルが確実に幻覚する幻覚のサブセットを特に特定する。
論文 参考訳(メタデータ) (2025-10-28T09:34:31Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation [9.540386616651295]
CoT(Chain-of-Thought)は、ステップバイステップ推論を奨励することによって幻覚を緩和する。
我々の研究は、推論の利用における見落とされがちなトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-20T15:49:37Z) - Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs [47.18623962083962]
大規模言語モデルにおける幻覚検出のための新しい手法を提案する。
その結果,幻覚応答は接地応答に比べて刺激からの偏差が小さいことがわかった。
本稿では,分布距離を原理的幻覚スコアとして用いたモデル固有検出法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:59:15Z) - Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.651861502104715]
我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。
MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。
相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文 参考訳(メタデータ) (2025-03-11T20:53:00Z) - HalluEntity: Benchmarking and Understanding Entity-Level Hallucination Detection [16.27352940098609]
本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T16:01:41Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Rowen: Adaptive Retrieval-Augmented Generation for Hallucination Mitigation in LLMs [88.75700174889538]
幻覚は大きな言語モデル(LLM)にとって大きな課題となる。
実物生成におけるパラメトリック知識の利用は, LLMの限られた知識によって制限される。
本稿では,幻覚出力に対応する適応的検索拡張プロセスによりLLMを強化する新しいフレームワークであるRowenについて述べる。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Correct block-design experiments mitigate temporal correlation bias in
EEG classification [68.85562949901077]
[1]の主主張は極めて過大評価されており、他の分析は間違った方法論的選択によって深刻な欠陥を負っていることを示す。
脳波の時間相関が2つの実験環境で同じモデルをテストすることによって分類精度に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2020-11-25T22:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。