論文の概要: Hallucination as an Anomaly: Dynamic Intervention via Probabilistic Circuits
- arxiv url: http://arxiv.org/abs/2605.05953v1
- Date: Thu, 07 May 2026 10:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.680797
- Title: Hallucination as an Anomaly: Dynamic Intervention via Probabilistic Circuits
- Title(参考訳): 異常としての幻覚:確率回路による動的介入
- Authors: Erik Nielsen, Elia Cunegatti, Marcus Vukojevic, Giovanni Iacca,
- Abstract要約: LLM残差ストリーム上のトラクタブル密度推定器として訓練された確率回路PCNETを提案する。
本手法は,実数多様体上の幾何学的異常として幻覚を検出する。
PCNETは、CoQA、SQuAD v2.0、TriviaQAのほぼ完全な幻覚検出を実現し、AUROCは99%に達する。
- 参考スコア(独自算出の注目度): 6.667596224057802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most critical challenges in Large Language Models is their tendency to hallucinate, i.e., produce factually incorrect responses. Existing approaches show promising results in terms of hallucination correction, but still suffer from a main limitation: they apply corrections indiscriminately to every token, corrupting also the originally correct generations. To overcome this drawback, we propose PCNET, a Probabilistic Circuit trained as a tractable density estimator over the LLM residual stream. The method detects hallucinations as geometric anomalies on the factual manifold, which is done via exact Negative Log-Likelihood computation, hence without the need for sampling, external verifiers, or weight modifications, as in existing techniques. To demonstrate its effectiveness, we exploit PCNET as a dynamic gate that distinguishes hallucinated from factual hidden states at each decoding step. This triggers our second main contribution, PC-LDCD (Probabilistic Circuit Latent Density Contrastive Decoding), only when the latent geometry deviates from factual regions, while leaving correct generations untouched. Across four LLMs, ranging from 1B to 8B models, and four benchmarks covering conversational reasoning, knowledge-intensive QA, reading comprehension, and truthfulness, PCNET achieves near-perfect hallucination detection across CoQA, SQuAD v2.0, and TriviaQA, with AUROC reaching up to 99%. Moreover, PC-LDCD obtains the highest True+Info, MC2, and MC3 scores on TruthfulQA in three out of four models, in comparison with state-of-the-art baselines, while reducing the mean corruption rate to 53.7% and achieving a preservation rate of 79.3%. Our proposed method is publicly available on GitHub.
- Abstract(参考訳): 大規模言語モデルにおける最も重要な課題の1つは、幻覚、すなわち、事実的に誤った反応を生み出す傾向があることである。
既存のアプローチは幻覚補正の点で有望な結果を示すが、それでも主要な制限に悩まされている。
この欠点を克服するために,LLM残差ストリーム上のトラクタブル密度推定器として訓練された確率回路PCNETを提案する。
この方法は、実数多様体上の幾何学的異常として幻覚を検出するが、これは正確な負の対数計算によって行われるため、既存の手法のようにサンプリング、外部検証、重み付けは不要である。
そこで我々は,PCNETを動的ゲートとして利用し,各デコードステップにおける隠れ状態と幻覚を区別する。
これは、PC-LDCD (Probabilistic Circuit Latent Density Contrastive Decoding) という2つ目の主要なコントリビューションを引き起こします。
1Bモデルから8Bモデルまでの4つのLCMと、会話推論、知識集約型QA、理解、真理性を含む4つのベンチマークにおいて、PCNETは、CoQA、SQuAD v2.0、TriviaQAでほぼ完全な幻覚検出を実現し、AUROCは最大99%に達する。
さらに、PC-LDCDはTrue+Info、MC2、MC3の最高スコアをTruefulQAの4つのモデルのうち3つで取得し、最先端のベースラインと比較して平均汚職率を53.7%に下げ、79.3%の保存率を達成した。
提案手法はGitHubで公開されている。
関連論文リスト
- HalluScan: A Systematic Benchmark for Detecting and Mitigating Hallucinations in Instruction-Following LLMs [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
しかし、それらは幻覚に影響を受けやすい - 事実的に不正確で、提供されたコンテキストに反するコンテンツを生成したり、ユーザ指示に反する。
本稿では,72構成の幻覚検出と緩和を体系的に評価する総合ベンチマークフレームワークであるHaluScanを紹介する。
論文 参考訳(メタデータ) (2026-05-04T10:43:27Z) - The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems [0.0]
幻覚予測をRAG検出に適用し、スコアを有限サンプルカバレッジ保証付き決定セットに変換する。
分布尾レンズを用いてこの障害を分析し,NLIモデルが許容可能なAUC(0.81)を達成する一方で,「最も厳しい」幻覚は,忠実な応答と意味的に区別できないことを示した。
論文 参考訳(メタデータ) (2025-12-17T04:22:28Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - HIDE and Seek: Detecting Hallucinations in Language Models via Decoupled Representations [17.673293240849787]
現代言語モデル(LM)は、しばしば、入力コンテキストに事実的に不正確または不誠実なコンテンツを生成する。
Decoupled rEpresentations (HIDE) による効果的な幻覚検出のためのシングルパストレーニングフリーアプローチを提案する。
その結果、HIDEは、ほぼすべての設定において、他のシングルパスメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-06-21T16:02:49Z) - ShED-HD: A Shannon Entropy Distribution Framework for Lightweight Hallucination Detection on Edge Devices [2.193668764461763]
大規模言語モデル(Ms.LS)は、幅広いタスクにおいて印象的な能力を示してきたが、幻覚を生み出す傾向にある。
本稿では,特徴的不確実性パターンを効率的に検出する新しい幻覚検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T23:47:26Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。