論文の概要: Where Does Reasoning Break? Step-Level Hallucination Detection via Hidden-State Transport Geometry
- arxiv url: http://arxiv.org/abs/2605.13772v1
- Date: Wed, 13 May 2026 16:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.189981
- Title: Where Does Reasoning Break? Step-Level Hallucination Detection via Hidden-State Transport Geometry
- Title(参考訳): 推論はどこで破れるのか : 隠れ状態輸送幾何学によるステップレベル幻覚検出
- Authors: Tyler Alvarez, Ali Baheri,
- Abstract要約: 大規模言語モデルは多段階の推論で幻覚するが、既存の検出器のほとんどはトレースレベルで動作する。
我々はこのビューをラベル付き教師で運用し、トレース固有のコントラスト型PCAレンズを構築する。
コントラストPCAが第1次誤差と正しい状態の移動分離目標の最適投影であることを示す。
- 参考スコア(独自算出の注目度): 3.2848713528308817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models hallucinate during multi-step reasoning, but most existing detectors operate at the trace level: they assign one confidence score to a full output, fail to localize the first error, and often require multiple sampled completions. We frame hallucination instead as a property of the hidden-state trajectory produced during a single forward pass. Correct reasoning moves through a stable manifold of locally coherent transitions; a first error appears as a localized excursion in transport cost away from this manifold. We operationalize this view with a label-conditioned teacher that builds a trace-specific contrastive PCA lens and scores each step with seven geometric transition features, and a deployable BiLSTM student distilled from the teacher that operates on raw hidden states without inference-time labels. We prove that contrastive PCA is the optimal projection for a transport-separation objective between first error and correct states, and that single-pass first error localization holds whenever the first error creates a positive transport margin over preceding correct transitions. On ProcessBench, PRM800K, HaluEval, and TruthfulQA, both models outperform entropy-based, probing-based, and attention-based baselines in-domain; the teacher transfers stably across language models and datasets, while the student collapses under shift, a gap our distillation theory predicts. These results recast step-level hallucination detection as a problem of trajectory dynamics and identify the central obstacle to deployment: preserving the contrastive transport margin under distribution shift.
- Abstract(参考訳): 大規模言語モデルは多段階の推論で幻覚するが、既存の検出器のほとんどはトレースレベルで動作し、1つの信頼スコアを完全な出力に割り当て、最初のエラーのローカライズに失敗し、しばしば複数のサンプリング完了を必要とする。
1回の前方通過で発生する隠れ状態軌跡の特性として幻覚をフレーム化した。
正しい推論は局所的コヒーレント遷移の安定多様体を通り抜けるが、最初の誤りはこの多様体から離れた輸送コストの局所的外挿として現れる。
我々は,この視点を,トレース特有のコントラスト付きPCAレンズを製作し,各ステップを7つの幾何学的遷移特徴でスコアするラベル条件付き教師と,推論時ラベルを使わずに生の隠蔽状態で動作する教師から抽出した展開可能なBiLSTM学生とで運用する。
比較的PCAは、第1の誤差と正しい状態の間の輸送分離目標の最適投影であり、第1の誤差が前回の正しい遷移よりも正の輸送マージンを生成するたびに、シングルパス第1の誤差局所化が成立することを示す。
ProcessBench, PRM800K, HaluEval, TruthfulQAでは、どちらのモデルもエントロピーベース、プローブベース、注目ベースラインをドメイン内で上回ります。
これらの結果は、軌道力学の問題として段階レベルの幻覚検出を再考し、配置における中心的障害を同定する。
関連論文リスト
- Posterior Augmented Flow Matching [64.1559809786948]
後拡張フローマッチング(PAFM)はフローマッチング(FM)の一般化である
PAFMは、異なるモデルスケールで最大3.4FID50KでFMよりも改善されていることを示す。
論文 参考訳(メタデータ) (2026-05-01T17:59:59Z) - HTDC: Hesitation-Triggered Differential Calibration for Mitigating Hallucination in Large Vision-Language Models [0.7252027234425333]
Hesitation-Triggered Differential Inference (HTDC)は、標準のフルブランチ推論を保存するトレーニング不要のデコードフレームワークである。
Hesitation-Triggered Differential Inference は、強いタスク精度を維持しながら、常に幻覚を減少させる。
論文 参考訳(メタデータ) (2026-04-13T22:47:27Z) - Learn to Rank: Visual Attribution by Learning Importance Ranking [58.69028273772474]
コンピュータビジョンモデルのための視覚属性マップを生成する新しい手法を提案する。
提案手法は, 任意の数段階の勾配補正を施した1つの前方通過において, 密度の高い画素レベルの属性を生成する。
我々の実験は、一貫した定量的改善と、よりシャープで境界に沿った説明を示す。
論文 参考訳(メタデータ) (2026-04-07T12:53:22Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Catching Contamination Before Generation: Spectral Kill Switches for Agents [0.0]
本稿では,フォワードパスのみを使用してエージェント実行中にバイナリ受信や拒否信号を出力する診断手法を提案する。
この手法は、注意によって誘導されるトークングラフを分析し、初期層における2つのスペクトル統計量を計算する。
ベイズ感覚では, 高頻度エネルギー比の1つの閾値が, 文脈の不整合を検出するのに最適であることを示す。
論文 参考訳(メタデータ) (2025-11-08T02:24:05Z) - Seed-Induced Uniqueness in Transformer Models: Subspace Alignment Governs Subliminal Transfer [0.3805935148497361]
教師が生徒が線形に復号化できる隠された特徴を埋め込むトランスフォーマーモデルにおけるサブリミナルトランスファーの分析を行う。
伝達強度は特性識別部分空間内のアライメントに比例する。
論文 参考訳(メタデータ) (2025-11-02T17:34:43Z) - Adaptive Bidirectional Displacement for Semi-Supervised Medical Image Segmentation [11.195959019678314]
整合性学習は、半教師付き医療画像セグメンテーションにおいて、ラベルのないデータに取り組むための中心的な戦略である。
本稿では,上記の課題を解決するための適応的双方向変位法を提案する。
論文 参考訳(メタデータ) (2024-05-01T08:17:43Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Self-Point-Flow: Self-Supervised Scene Flow Estimation from Point Clouds
with Optimal Transport and Random Walk [59.87525177207915]
シーンフローを近似する2点雲間の対応性を確立するための自己教師型手法を開発した。
本手法は,自己教師付き学習手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-18T03:12:42Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。