論文の概要: Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination
- arxiv url: http://arxiv.org/abs/2605.27016v1
- Date: Tue, 26 May 2026 13:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.191024
- Title: Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination
- Title(参考訳): LLM幻覚における不確かさ推定器の妥当性の評価
- Authors: Yedidia Agnimo, Anna Korba, Annabelle Blangero, Nicolas Chesneau, Karteek Alahari,
- Abstract要約: 大型言語モデル(LLM)は幻覚を起こす傾向があり、すなわち、入力データや訓練データによって支持されない文である。
LLMにおける不確実性推定と幻覚との関連について,系統的研究を行った。
- 参考スコア(独自算出の注目度): 17.688677912242593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are prone to hallucinations, i.e., statements unsupported by the input or training data, hindering reliable deployment. In parallel, numerous uncertainty estimation (UE) methods have been proposed to quantify model confidence and are often implicitly treated as proxies for model failure. However, the relationship between uncertainty and hallucinations remains insufficiently characterized. We present a systematic empirical study of the association between uncertainty estimators and hallucinations in LLMs. Rather than assuming this association, we evaluate directly when and to what extent it holds. We consider a diverse set of uncertainty estimators, including information-theoretic, sampling-based, and reflexive estimators, and examine their behavior across hallucination settings. Our experiments cover both intrinsic hallucinations (violations of input faithfulness) and extrinsic hallucinations (unsupported claims relative to training data), using four complementary benchmarks, including RAGTruth and HalluLens. We find that the association is highly variable and often weak, depending on the hallucination type and the LLM under evaluation. These results challenge the use of uncertainty as a direct signal of hallucination and clarify when it provides actionable information.
- Abstract(参考訳): 大規模言語モデル(LLM)は幻覚を起こす傾向があり、すなわち、入力データやトレーニングデータによるステートメントがサポートされ、信頼性の高いデプロイメントを妨げている。
並行して、モデル信頼度を定量化するために多数の不確実性推定(UE)法が提案され、しばしばモデル失敗のプロキシとして暗黙的に扱われる。
しかし、不確実性と幻覚の関係はいまだに不十分である。
LLMにおける不確実性推定と幻覚との関連について,系統的研究を行った。
この協会を仮定するよりも、いつ、どの程度の期間で直接評価する。
我々は、情報理論、サンプリングベース、反射的推定を含む様々な不確実性推定器について検討し、幻覚設定を通してそれらの挙動を検証した。
実験では, RAGTruth と HalluLens を含む4つの相補的ベンチマークを用いて, 内因性幻覚(入力忠実性違反)と外因性幻覚(トレーニングデータに対する非支持クレーム)の両方について検討した。
本研究は, 幻覚型とLLMによる評価により, 関連性は非常に変化し, しばしば弱いことが判明した。
これらの結果は、幻覚の直接信号としての不確実性の使用に挑戦し、それが実行可能な情報を提供するときを明確にする。
関連論文リスト
- When Bias Pretends to Be Truth: How Spurious Correlations Undermine Hallucination Detection in LLMs [15.622799135126455]
大規模言語モデル (LLM) は幻覚を呈し続けており, 妥当で誤った反応を生じている。
我々は、急激な相関によって引き起こされた、批判的だが未発見の幻覚のクラスを強調した。
信頼に基づくフィルタリングや内部状態探索のような既存の幻覚検出手法は、基本的には素早い相関の存在下で失敗する。
論文 参考訳(メタデータ) (2025-11-10T17:19:27Z) - HACK: Hallucinations Along Certainty and Knowledge Axes [66.66625343090743]
本稿では,2つの軸に沿って幻覚を分類する枠組みを提案する。
内部的に正しい知識を持っているにもかかわらず、モデルが確実に幻覚する幻覚のサブセットを特に特定する。
論文 参考訳(メタデータ) (2025-10-28T09:34:31Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - Theoretical Foundations and Mitigation of Hallucination in Large Language Models [0.0]
LLM(英: Hallucination in Large Language Models)とは、入力や実世界の事実に忠実でないコンテンツの生成を指す用語である。
本稿では, LLMにおける幻覚の厳密な処理について述べる。
論文 参考訳(メタデータ) (2025-07-20T15:22:34Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - HalluEntity: Benchmarking and Understanding Entity-Level Hallucination Detection [16.27352940098609]
本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T16:01:41Z) - Rowen: Adaptive Retrieval-Augmented Generation for Hallucination Mitigation in LLMs [88.75700174889538]
幻覚は大きな言語モデル(LLM)にとって大きな課題となる。
実物生成におけるパラメトリック知識の利用は, LLMの限られた知識によって制限される。
本稿では,幻覚出力に対応する適応的検索拡張プロセスによりLLMを強化する新しいフレームワークであるRowenについて述べる。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。