論文の概要: Harnessing Reasoning Trajectories for Hallucination Detection via Answer-agreement Representation Shaping
- arxiv url: http://arxiv.org/abs/2601.17467v1
- Date: Sat, 24 Jan 2026 13:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.799205
- Title: Harnessing Reasoning Trajectories for Hallucination Detection via Answer-agreement Representation Shaping
- Title(参考訳): Answer-agreement Representation Shapingによる幻覚検出のためのハーネスリング推論軌道
- Authors: Jianxiong Zhang, Bing Guo, Yuming Jiang, Haobo Wang, Bo An, Xuefeng Du,
- Abstract要約: 本稿では,検出フレンドリーなトレース条件表現を学習するAnswer-agreement Representation Shaping(ARS)を提案する。
ARSは小さな潜伏介入によって反現実的な答えを生成する。
ARSは検出を継続的に改善し、強いベースラインよりも大幅に向上する。
- 参考スコア(独自算出の注目度): 31.704726867711955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) often generate long, seemingly coherent reasoning traces yet still produce incorrect answers, making hallucination detection challenging. Although trajectories contain useful signals, directly using trace text or vanilla hidden states for detection is brittle: traces vary in form and detectors can overfit to superficial patterns rather than answer validity. We introduce Answer-agreement Representation Shaping (ARS), which learns detection-friendly trace-conditioned representations by explicitly encoding answer stability. ARS generates counterfactual answers through small latent interventions, specifically, perturbing the trace-boundary embedding, and labels each perturbation by whether the resulting answer agrees with the original. It then learns representations that bring answer-agreeing states together and separate answer-disagreeing ones, exposing latent instability indicative of hallucination risk. The shaped embeddings are plug-and-play with existing embedding-based detectors and require no human annotations during training. Experiments demonstrate that ARS consistently improves detection and achieves substantial gains over strong baselines.
- Abstract(参考訳): 大きな推論モデル(LRMs)は、しばしば長い、一貫性のある推論の痕跡を生成するが、まだ誤った答えを生じさせ、幻覚の検出を困難にしている。
軌跡には有用な信号が含まれているが、トレーステキストやバニラ隠れ状態を直接使用して検出することは不安定であり、痕跡は形によって異なり、検出器は正解ではなく表面パターンに過度に適合する。
本稿では, 応答安定性を明示的に符号化することで, 検出しやすいトレース条件表現を学習するAnswer-agreement Representation Shaping(ARS)を提案する。
ARSは小さな潜伏的介入、具体的にはトレース境界埋め込みの摂動を通じて反現実的な答えを生成し、結果として得られる答えが元のものと一致するかどうかによって各摂動をラベル付けする。
その後、答え認識状態と回答認識状態の分離をもたらす表現を学び、幻覚のリスクを示す潜在不安定を露呈する。
形状の埋め込みは、既存の埋め込みベースの検出器でプラグ&プレイされ、トレーニング中に人間のアノテーションを必要としない。
実験により、ARSは検出を一貫して改善し、強いベースラインよりも大幅に向上することが示された。
関連論文リスト
- Measuring the Impact of Lexical Training Data Coverage on Hallucination Detection in Large Language Models [26.89705770151822]
大規模言語モデル(LLM)における幻覚は、特にオープンドメインの質問応答において、根本的な課題である。
これまでの研究は、トークンレベルのエントロピーや生成一貫性といったモデル内部信号による幻覚の検出を試みた。
本研究では,データカバレッジ自体が検出信号として機能するかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-22T06:59:55Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - A Single Direction of Truth: An Observer Model's Linear Residual Probe Exposes and Steers Contextual Hallucinations [0.0]
ジェネレータ非依存オブザーバモデルは、その残留ストリーム上の1つのフォワードパスと線形プローブを介して幻覚を検出する。
本発明のプローブは、忠実テキストから幻覚を分離した1つの直線方向を分離し、ベースラインを5〜27ポイント上回る。
論文 参考訳(メタデータ) (2025-07-31T03:26:57Z) - Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation [9.540386616651295]
CoT(Chain-of-Thought)は、ステップバイステップ推論を奨励することによって幻覚を緩和する。
我々の研究は、推論の利用における見落とされがちなトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-20T15:49:37Z) - Joint Evaluation of Answer and Reasoning Consistency for Hallucination Detection in Large Reasoning Models [12.270274049887298]
トレースの推論は冗長あるいは論理的に矛盾する可能性があるため、新しい幻覚の源となる。
既存の幻覚検出法は主に回答レベルの不確実性に焦点を当てている。
LRMにおける幻覚検出に適した新しいフレームワークであるRASを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:54:04Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps [48.58310785625051]
大型言語モデル(LLM)は詳細を幻覚し、根拠のない回答で応答することができる。
本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。
論文 参考訳(メタデータ) (2024-07-09T17:44:34Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。