論文の概要: TriLens: Per-Layer Logit-Lens Entropy for White-Box Hallucination Detection
- arxiv url: http://arxiv.org/abs/2606.01033v1
- Date: Sun, 31 May 2026 05:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.154558
- Title: TriLens: Per-Layer Logit-Lens Entropy for White-Box Hallucination Detection
- Title(参考訳): TriLens:White-Box幻覚検出のためのLayer Logit-Lensエントロピー
- Authors: Bohan Yang, Yijun Gong, Zhi Zhang, Ge Zhang, Wenpeng Xing, Meng Han,
- Abstract要約: 本稿では,言語モデルにおける幻覚検出用検出器TriLensを紹介する。
どの層でも、マルチヘッドの自己注意出力、フィードフォワード出力、モデル自身のロジットレンズを通して残留ストリームを読み取る。
結果として生じる3L-次元軌道は、深さと加群をまたいだ確実性がどのように形成されるかを記述する。
- 参考スコア(独自算出の注目度): 22.258009855879752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a language model hallucinates, the final answer is wrong, but the mistake is not necessarily invisible inside the model. Different internal pathways may remain uncertain, disagree in how quickly they sharpen, or commit to competing continuations before the output is produced. We introduce TriLens, a white-box detector that turns this intuition into a compact representation: at every layer, it reads the multi-head self-attention output, the feed-forward output, and the residual stream through the model's own logit lens, then records only the entropy of each readout. The resulting 3L-dimensional trajectory describes how certainty forms across depth and across modules, without storing high-dimensional hidden states or sampling multiple generations. This simple signal yields a strong detector across instruction-tuned LLMs and QA benchmarks, and our analyses show that the three module-wise entropy trajectories provide complementary evidence. TriLens suggests that hallucination detection can benefit from tracking how internal computation settles, not only what the final layer predicts.
- Abstract(参考訳): 言語モデルが幻覚化すると、最終的な答えは間違っているが、ミスは必ずしもモデルの内部で見えないとは限らない。
内部の異なる経路は、出力が生成される前にどれだけ早く研ぎ澄まされるか、あるいは競合する継続にコミットするかに相変わらず不透明なままである。
私たちはこの直感をコンパクトな表現に変換する白いボックス検出器であるTriLensを紹介します。すべての層において、マルチヘッドの自己注意出力、フィードフォワード出力、モデル自身のロジットレンズによる残ストリームを読み出し、各読み出しのエントロピーのみを記録する。
結果として生じる3L次元軌道は、高次元の隠蔽状態や複数の世代をサンプリングすることなく、深さとモジュール間の確実性がどのように形成されるかを記述する。
この単純な信号は、命令調整されたLLMとQAベンチマークの強い検出器となり、3つのモジュールワイドエントロピー軌道が相補的な証拠となることを示す。
TriLens氏は、幻覚検出は最終層が予測するものだけでなく、内部の計算の解決方法を追跡することの恩恵があると考えている。
関連論文リスト
- EnsemHalDet: Robust VLM Hallucination Detection via Ensemble of Internal State Detectors [1.4401311275746886]
VLM(Vision-Language Models)は、マルチモーダルなタスクにおいて優れているが、実際には正しくない、あるいは入力画像に根拠のない幻覚に弱いままである。
近年の研究では、内部表現を用いた幻覚検出は、モデル出力のみに依存するアプローチよりも効率的で正確であることが示唆されている。
本研究では,アンサンブルに基づく幻覚検出フレームワークEnsemHalDetを提案する。
論文 参考訳(メタデータ) (2026-04-03T06:48:27Z) - DRIFT: Detecting Representational Inconsistencies for Factual Truthfulness [5.785021425715989]
LLMは流動性があるが誤った答えを出すことが多いが、このような幻覚を検出するには、通常、複数のサンプリングパスやポストホック検証が必要である。
隠れ状態から直接これらの信号を読み取るための軽量なプローブを提案する。
信頼性の高い問合せを即座に答えるとともに,不確実な問合せをより強力なモデルに委譲するLLMルータを開発した。
論文 参考訳(メタデータ) (2026-01-20T18:16:10Z) - EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs [8.616813040714883]
EigenTrackは大規模言語モデル(LLM)のための解釈可能なリアルタイム検出器である
表面誤差が現れる前に幻覚とOODドリフトを信号する表現構造における時間的シフトを追跡する。
既存のホワイトボックス検出器とは異なり、時間的コンテキストを保存し、グローバルシグナルを集約し、解釈可能な精度-遅延トレードオフを提供する。
論文 参考訳(メタデータ) (2025-09-19T08:05:28Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Don't Say What You Don't Know: Improving the Consistency of Abstractive
Summarization by Constraining Beam Search [54.286450484332505]
本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚を呈する証拠を見出した。
本稿では,ビーム探索を制約して幻覚を回避し,変換器をベースとした抽象要約器の整合性を向上させる新しい復号法であるPINOCCHIOを提案する。
論文 参考訳(メタデータ) (2022-03-16T07:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。