論文の概要: Streaming Hallucination Detection in Long Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2601.02170v1
- Date: Mon, 05 Jan 2026 14:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.228815
- Title: Streaming Hallucination Detection in Long Chain-of-Thought Reasoning
- Title(参考訳): 長鎖推論におけるストリーミング幻覚検出
- Authors: Haolang Lu, Minghui Pan, Ripeng Li, Guoshun Nan, Jialin Zhuang, Zijie Zhao, Zhongxiang Sun, Kun Wang, Yang Liu,
- Abstract要約: 長いCoT推論における幻覚は、1つの誤った出来事ではなく、進化している潜伏状態として理解されている。
提案手法は,長いCoT推論におけるストリーミング幻覚検出を可能にし,リアルタイムで解釈可能な証拠を提供する。
- 参考スコア(独自算出の注目度): 12.874780445960424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long chain-of-thought (CoT) reasoning improves the performance of large language models, yet hallucinations in such settings often emerge subtly and propagate across reasoning steps. We suggest that hallucination in long CoT reasoning is better understood as an evolving latent state rather than a one-off erroneous event. Accordingly, we treat step-level hallucination judgments as local observations and introduce a cumulative prefix-level hallucination signal that tracks the global evolution of the reasoning state over the entire trajectory. Overall, our approach enables streaming hallucination detection in long CoT reasoning, providing real-time, interpretable evidence.
- Abstract(参考訳): ロングチェーン・オブ・シークレット(CoT)推論は、大きな言語モデルの性能を向上させるが、そのような設定における幻覚は、しばしば微妙に現れ、推論ステップを越えて伝播する。
長いCoT推論における幻覚は、誤った事象ではなく、進化している潜伏状態として理解されていることが示唆された。
そこで我々は,ステップレベルの幻覚判定を局所的な観測として扱うとともに,全軌道上の推論状態のグローバルな進化を追跡する累積的なプレフィックスレベルの幻覚信号を導入する。
全体として、我々の手法は長いCoT推論におけるストリーミング幻覚検出を可能にし、リアルタイムで解釈可能な証拠を提供する。
関連論文リスト
- Why LVLMs Are More Prone to Hallucinations in Longer Responses: The Role of Context [34.903722603279014]
LVLM(Large Vision-Language Models)は近年大きな進歩を遂げているが、幻覚の傾向にある。
本稿では, 覚醒の増加は, 長さによる誤差のみに起因するのか, それとも, より根底にあるメカニズムがあるのかを問う。
本稿では,意図的設計による幻覚を積極的に誘発する新しい「インデューサ・ディテクト・プレッション」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T05:22:07Z) - Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.00109641811788]
テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。
本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。
以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
論文 参考訳(メタデータ) (2025-09-08T16:28:25Z) - Are Reasoning Models More Prone to Hallucination? [70.04436965009072]
最近進化した大推論モデル(LRM)は、長いチェーン・オブ・シークレット(CoT)推論能力を持つ複雑なタスクを解く上で、強力な性能を示している。
推論モデルは幻覚の傾向が強いか?
本稿では3つの観点からその問題に対処する。
論文 参考訳(メタデータ) (2025-05-29T16:53:41Z) - Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models [12.747507415841168]
本研究では,制約付き知識領域における幻覚の因果関係について,チェーン・オブ・ソート(Chain-of-Thought)の軌跡を監査することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスやエラーを反復的に補強することができる。
驚いたことに、幻覚の原因の直接的な介入でさえも、連鎖が「連鎖不規則性」を示すため、その効果を覆すことができないことが多い。
論文 参考訳(メタデータ) (2025-05-19T14:11:09Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。