論文の概要: Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.11529v1
- Date: Mon, 13 Oct 2025 15:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.432128
- Title: Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models
- Title(参考訳): 大規模言語モデルにおける内部状態と構造的推論一貫性による幻覚検出
- Authors: Yusheng Song, Lirong Qiu, Xi Zhang, Zhihao Tang,
- Abstract要約: 内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
- 参考スコア(独自算出の注目度): 7.18947815679122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The detection of sophisticated hallucinations in Large Language Models (LLMs) is hampered by a ``Detection Dilemma'': methods probing internal states (Internal State Probing) excel at identifying factual inconsistencies but fail on logical fallacies, while those verifying externalized reasoning (Chain-of-Thought Verification) show the opposite behavior. This schism creates a task-dependent blind spot: Chain-of-Thought Verification fails on fact-intensive tasks like open-domain QA where reasoning is ungrounded, while Internal State Probing is ineffective on logic-intensive tasks like mathematical reasoning where models are confidently wrong. We resolve this with a unified framework that bridges this critical gap. However, unification is hindered by two fundamental challenges: the Signal Scarcity Barrier, as coarse symbolic reasoning chains lack signals directly comparable to fine-grained internal states, and the Representational Alignment Barrier, a deep-seated mismatch between their underlying semantic spaces. To overcome these, we introduce a multi-path reasoning mechanism to obtain more comparable, fine-grained signals, and a segment-aware temporalized cross-attention module to adaptively fuse these now-aligned representations, pinpointing subtle dissonances. Extensive experiments on three diverse benchmarks and two leading LLMs demonstrate that our framework consistently and significantly outperforms strong baselines. Our code is available: https://github.com/peach918/HalluDet.
- Abstract(参考訳): 大言語モデル(LLMs)における洗練された幻覚の検出は、内的状態(内部状態証明)が事実の不整合を識別できるが論理的誤認に失敗する手法である ``Detection Dilemma'' によって妨げられ、外部的推論(Chain-of-Thought Verification)を検証する手法は、その逆の振る舞いを示す。
Chain-of-Thoughtの検証は、推論が根拠のないオープンドメインQAのような事実集約的なタスクでは失敗し、内部状態探索は、モデルが確実に間違っている数学的推論のような論理集約的なタスクでは効果がありません。
私たちはこの重要なギャップを埋める統一されたフレームワークでこれを解決します。
しかし、信号スカシティバリアは、粗い記号的推論チェインであり、微粒な内部状態と直接的に同等な信号を持たないため、Representational Alignment Barrierは、基礎となるセマンティック空間間の深いミスマッチである。
これらを克服するために、より同等できめ細かな信号を得るためのマルチパス推論機構と、これらを適応的に融合させる分節認識型時間的クロスアテンションモジュールを導入し、微妙な不協和を指摘する。
3つの多様なベンチマークと2つの主要なLCMに関する大規模な実験は、我々のフレームワークが強いベースラインを一貫して、著しく上回っていることを示している。
私たちのコードは、https://github.com/peach918/HalluDet.comで利用可能です。
関連論文リスト
- TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。
我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。
従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文 参考訳(メタデータ) (2026-01-30T07:19:17Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents [0.0]
エージェント推論の因果的整合性を評価するための新しいXAIフレームワークである textbfProject Ariadne を紹介する。
表面レベルのテキスト類似性に依存する既存の解釈可能性メソッドとは異なり、Project Ariadne は中間推論ノードに対して textbfhard の介入(do$-calculus)を行う。
我々の最先端モデルに対する実証的な評価は、永続的なテクスチャフルネスギャップを明らかにします。
論文 参考訳(メタデータ) (2026-01-05T18:05:29Z) - MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models [49.32415342913976]
マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
論文 参考訳(メタデータ) (2025-12-09T04:13:31Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。