論文の概要: Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15652v1
- Date: Thu, 22 Jan 2026 05:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.49579
- Title: Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models
- Title(参考訳): 大規模言語モデルにおける幻覚検出のための予測符号化と情報基盤
- Authors: Manish Bhatt,
- Abstract要約: 大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
- 参考スコア(独自算出の注目度): 0.8552050317027305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in Large Language Models (LLMs) -- generations that are plausible but factually unfaithful -- remain a critical barrier to high-stakes deployment. Current detection methods typically rely on computationally expensive external retrieval loops or opaque black-box LLM judges requiring 70B+ parameters. In this work, we introduce [Model Name], a hybrid detection framework that combines neuroscience-inspired signal design with supervised machine learning. We extract interpretable signals grounded in Predictive Coding (quantifying surprise against internal priors) and the Information Bottleneck (measuring signal retention under perturbation). Through systematic ablation, we demonstrate three key enhancements: Entity-Focused Uptake (concentrating on high-value tokens), Context Adherence (measuring grounding strength), and Falsifiability Score (detecting confident but contradictory claims). Evaluating on HaluBench (n=200, perfectly balanced), our theory-guided baseline achieves 0.8017 AUROC. BASE supervised models reach 0.8274 AUROC, while IMPROVED features boost performance to 0.8669 AUROC (4.95% gain), demonstrating consistent improvements across architectures. This competitive performance is achieved while using 75x less training data than Lynx (200 vs 15,000 samples), 1000x faster inference (5ms vs 5s), and remaining fully interpretable. Crucially, we report a negative result: the Rationalization signal fails to distinguish hallucinations, suggesting that LLMs generate coherent reasoning for false premises ("Sycophancy"). This work demonstrates that domain knowledge encoded in signal architecture provides superior data efficiency compared to scaling LLM judges, achieving strong performance with lightweight (less than 1M parameter), explainable models suitable for production deployment.
- Abstract(参考訳): 大規模言語モデル (LLMs) における幻覚 (Halucinations in Large Language Models) は、高レベルのデプロイメントにとって重要な障壁である。
現在の検出方法は通常、計算に高価な外部検索ループや、70B以上のパラメータを必要とする不透明なブラックボックスLSMの判断に依存する。
本研究では,神経科学に触発された信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
予測符号化(内部前兆に対する驚きの定量化)とインフォメーション・ボトルネック(摂動下での信号保持の計測)に根ざした解釈可能な信号を抽出する。
体系的なアブレーションを通じて、Entity-Focused Uptake(高価値トークンに集中)、Context Adherence(基底強度の測定)、Falsifiability Score(自信はあるが矛盾するクレームを検出する)の3つの重要な機能強化を示す。
HaluBench(n=200,完全平衡)の評価では、理論誘導ベースラインは0.8017 AUROCに達する。
BASE監督型モデルは 0.8274 AUROC に達し、IMPROVED は 0.8669 AUROC (4.95% 増加) に性能を向上し、アーキテクチャ全体で一貫した改善が示された。
この競合性能は、Lynx(200対15,000サンプル)よりも75倍少ないトレーニングデータ、1000倍高速な推論(5ms対5s)、そして完全に解釈可能なままで達成されている。
論理化信号は幻覚の識別に失敗し,LLMが虚偽の前提に対するコヒーレントな推論を生成することを示唆する("Sycophancy")。
この研究は、信号アーキテクチャで符号化されたドメイン知識が、LCM審査員のスケーリングよりも優れたデータ効率を提供し、軽量(100Mパラメータ未満)で強力なパフォーマンスを実現し、本番デプロイメントに適した説明可能なモデルを提供することを示した。
関連論文リスト
- Generalization Gaps in Political Fake News Detection: An Empirical Study on the LIAR Dataset [0.764671395172401]
LIARベンチマークを用いて,9つの機械学習アルゴリズムの診断評価を行った。
モデルの重み付きF1スコアを超えないきめ細かい分類の「パフォーマンスシーリング」を発見した。
木に基づくアンサンブルの大規模な"一般化ギャップ"は、99%以上のトレーニング精度を達成したが、テストデータで約25%に崩壊した。
論文 参考訳(メタデータ) (2025-12-20T23:08:18Z) - Mitigating Spurious Correlations in NLI via LLM-Synthesized Counterfactuals and Dynamic Balanced Sampling [0.0]
自然言語推論(NLI)モデルは、意味論的推論よりも、素早い相関にしばしば依存する。
既存の緩和戦略は、しばしば高いアノテーションコストを発生させるか、微調整中に破滅的な忘れを引き起こす。
これらの制限に対処する自動化されたスケーラブルなパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-20T18:30:54Z) - Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - Synergistic Feature Fusion for Latent Lyrical Classification: A Gated Deep Learning Architecture [0.0]
本研究は,複雑で高次元の深い意味的特徴を,論理的内容分類のための単純かつ解釈可能な構造的手がかりと統合するという課題に対処する。
低次元補助的特徴(Fstruct)を用いた意味-BERT埋め込み(Fdeep)を修飾するためのゲート機構を利用したディープラーニングモデルであるSFLアーキテクチャを提案する。
SFLモデルは精度0.9894、マクロF1スコア0.9894を達成し、特徴連結を用いた総合ランダムフォレスト(RF)ベースラインを上回った。
論文 参考訳(メタデータ) (2025-11-11T21:12:52Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Language Models (Mostly) Know When to Stop Reading [24.246459354913146]
大規模言語モデル(LLM)は、クエリに応答するために必要な情報がコンテキスト内にローカライズされた場合、入力コンテキスト全体を無差別に処理する。
タスク関連情報を取得する際に, LLM が自己決定処理を行うことのできる新しい手法である動的コンテキストカットオフを提案する。
論文 参考訳(メタデータ) (2025-02-03T03:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。