論文の概要: Lowest Span Confidence: A Zero-Shot Metric for Efficient and Black-Box Hallucination Detection in LLMs
- arxiv url: http://arxiv.org/abs/2601.19918v1
- Date: Wed, 07 Jan 2026 12:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.534587
- Title: Lowest Span Confidence: A Zero-Shot Metric for Efficient and Black-Box Hallucination Detection in LLMs
- Title(参考訳): 最短スパン信頼度:LLMにおける効率・ブラックボックス幻覚検出のためのゼロショット基準
- Authors: Yitong Qiao, Licheng Pan, Yu Mi, Lei Liu, Yue Shen, Fei Sun, Zhixuan Chu,
- Abstract要約: LLM(Large Language Models)の幻覚は、もっともらしいが非現実的な内容を生成する。
本稿では,最小資源仮定下での幻覚検出のために,LSC(Lowest Span Confidence)と呼ばれる新しいゼロショット法を提案する。
LSCは既存のゼロショットベースラインを一貫して上回り、リソース制約条件下であっても強力な検出性能を提供する。
- 参考スコア(独自算出の注目度): 24.471653720056803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in Large Language Models (LLMs), i.e., the tendency to generate plausible but non-factual content, pose a significant challenge for their reliable deployment in high-stakes environments. However, existing hallucination detection methods generally operate under unrealistic assumptions, i.e., either requiring expensive intensive sampling strategies for consistency checks or white-box LLM states, which are unavailable or inefficient in common API-based scenarios. To this end, we propose a novel efficient zero-shot metric called Lowest Span Confidence (LSC) for hallucination detection under minimal resource assumptions, only requiring a single forward with output probabilities. Concretely, LSC evaluates the joint likelihood of semantically coherent spans via a sliding window mechanism. By identifying regions of lowest marginal confidence across variable-length n-grams, LSC could well capture local uncertainty patterns strongly correlated with factual inconsistency. Importantly, LSC can mitigate the dilution effect of perplexity and the noise sensitivity of minimum token probability, offering a more robust estimate of factual uncertainty. Extensive experiments across multiple state-of-the-art (SOTA) LLMs and diverse benchmarks show that LSC consistently outperforms existing zero-shot baselines, delivering strong detection performance even under resource-constrained conditions.
- Abstract(参考訳): LLM(Large Language Models)における幻覚(Halucinations in Large Language Models)、すなわち、可塑性だが非実効性のあるコンテンツを生成する傾向は、ハイテイク環境における信頼性の高いデプロイメントにおいて大きな課題となる。
しかし、既存の幻覚検出手法は一般に非現実的な仮定の下で動作し、例えば、一貫性チェックのために高価なサンプリング戦略を必要とするか、共通APIベースのシナリオでは利用できないか非効率なホワイトボックスLSM状態を必要とする。
そこで本研究では,最小限の資源仮定下での幻覚検出のために,出力確率を単一フォワードで行うという,効率的なゼロショット・メトリック(LSC)を提案する。
具体的には、LCCはスライディングウインドウ機構を介して意味的コヒーレントスパンの結合可能性を評価する。
可変長n-グラムで最小限の限界信頼領域を同定することにより、LCCは事実の不整合と強く相関する局所不確実性パターンを捉えることができる。
重要なことは、LCCはパープレキシティの希釈効果と最小トークン確率のノイズ感度を緩和することができ、事実の不確実性のより堅牢な見積もりを提供する。
複数のSOTA (State-of-the-art) LLMと多種多様なベンチマークによる大規模な実験により、LCCは既存のゼロショットベースラインを一貫して上回り、資源制約条件下でも強力な検出性能を提供することが示された。
関連論文リスト
- DRIFT: Detecting Representational Inconsistencies for Factual Truthfulness [5.785021425715989]
LLMは流動性があるが誤った答えを出すことが多いが、このような幻覚を検出するには、通常、複数のサンプリングパスやポストホック検証が必要である。
隠れ状態から直接これらの信号を読み取るための軽量なプローブを提案する。
信頼性の高い問合せを即座に答えるとともに,不確実な問合せをより強力なモデルに委譲するLLMルータを開発した。
論文 参考訳(メタデータ) (2026-01-20T18:16:10Z) - Cross-Layer Attention Probing for Fine-Grained Hallucination Detection [6.83291363146574]
幻覚検出のための新しいアクティベーション・プロブリング技術であるCLAP(Cross-Layer Attention Probing)を提案する。
実験により,CLAPは脱コード応答と高温度でサンプリングされた応答の両方のベースラインと比較して幻覚検出を改善することが示された。
CLAPは、アウト・オブ・ディストリビューションを適用しても高い信頼性を維持する。
論文 参考訳(メタデータ) (2025-09-04T14:37:34Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Cleanse: Uncertainty Estimation Approach Using Clustering-based Semantic Consistency in LLMs [5.161416961439468]
本研究では,textbfClusttextbfering に基づくsemtextbfantic contextbfsisttextbfency (textbfCleanse) を用いた効果的な不確実性推定手法を提案する。
LLaMA-7B, LLaMA-13B, LLaMA2-7B, Mistral-7Bの4つの市販モデルを用いて, 幻覚検出におけるクリーンスの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-19T14:48:24Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection [39.52923659121416]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:23:12Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。