論文の概要: Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models
- arxiv url: http://arxiv.org/abs/2505.13143v1
- Date: Mon, 19 May 2025 14:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.639564
- Title: Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models
- Title(参考訳): 大規模言語モデルにおけるメタ認知幻覚の検討
- Authors: Haolang Lu, Yilian Liu, Jingxin Xu, Guoshun Nan, Yuanlong Yu, Zhican Chen, Kun Wang,
- Abstract要約: 本研究では,制約付き知識領域における幻覚の因果関係について,チェーン・オブ・ソート(Chain-of-Thought)の軌跡を監査することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスやエラーを反復的に補強することができる。
驚いたことに、幻覚の根源にある直接的な介入でさえ、その効果を覆すことができないことが多い。
- 参考スコア(独自算出の注目度): 8.97308732968526
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of Reasoning Large Language Models (RLLMs) has significantly improved multi-step reasoning capabilities, but it has also made hallucination problems more frequent and harder to eliminate. While existing approaches mitigate hallucinations through external knowledge integration, model parameter analysis, or self-verification, they often fail to capture how hallucinations emerge and evolve across the reasoning chain. In this work, we study the causality of hallucinations under constrained knowledge domains by auditing the Chain-of-Thought (CoT) trajectory and assessing the model's cognitive confidence in potentially erroneous or biased claims. Our analysis reveals that in long-CoT settings, RLLMs can iteratively reinforce biases and errors through flawed reflective reasoning, eventually leading to hallucinated reasoning paths. Surprisingly, even direct interventions at the origin of hallucinations often fail to reverse their effects, as reasoning chains exhibit 'chain disloyalty' -- a resistance to correction and a tendency to preserve flawed logic. Furthermore, we show that existing hallucination detection methods are less reliable and interpretable than previously assumed in complex reasoning scenarios. Unlike methods such as circuit tracing that require access to model internals, our black-box auditing approach supports interpretable long-chain hallucination attribution, offering better generalizability and practical utility. Code and data are available at: https://anonymous.4open.science/r/repo_for_meta_hallucination
- Abstract(参考訳): RLLM(Reasoning Large Language Models)の開発は、多段階推論機能を大幅に改善したが、幻覚の問題をより頻繁に、排除しにくくした。
既存のアプローチは、外部知識の統合、モデルパラメータ分析、あるいは自己検証を通じて幻覚を緩和するが、彼らはしばしば、幻覚がどのように出現し、理性連鎖を越えて進化するかを捉えるのに失敗する。
本研究では,制約付き知識領域下での幻覚の因果性について,CoT(Chain-of-Thought)軌道を監査し,誤認や偏見のある主張に対するモデルの認知的信頼度を評価することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスとエラーを反復的に補強し、最終的に幻覚的推論経路につながる。
驚いたことに、幻覚の根源にある直接的な介入でさえも、連鎖が'鎖の不規則性'を示すため、その効果を逆転させることがしばしばある。
さらに,既存の幻覚検出手法は,従来想定されていた複雑な推論シナリオよりも信頼性が低く,解釈可能であることを示す。
モデル内部へのアクセスを必要とする回路トレースのような手法とは異なり、ブラックボックス監査手法は解釈可能な長鎖幻覚の帰属をサポートし、より一般化性と実用性を提供する。
コードとデータは、https://anonymous.4open.science/r/repo_for_meta_hallucinationで利用可能である。
関連論文リスト
- Detection and Mitigation of Hallucination in Large Reasoning Models: A Mechanistic Perspective [11.013059864022667]
推論の幻覚は論理的に一貫性があるが、事実的に誤った推論トレースである。
これらのエラーは構造化推論に埋め込まれており、検出が難しく、潜在的に有害である可能性がある。
本稿では,ロジット間のばらつきを測定することによって推論の深さを定量化するReasoning Scoreを提案する。
また,ステップレベルの深い推論報酬をポテンシャルベース形状に組み込んだ強化強化学習アルゴリズムGRPO-Rを導入する。
論文 参考訳(メタデータ) (2025-05-19T09:16:40Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Delusions of Large Language Models [62.43923767408462]
大規模言語モデルは、しばしば幻覚として知られる、事実的に間違っているが、もっともらしい出力を生成する。
高信頼幻覚と定義され、不正確な出力を異常に高い信頼性で検出し、緩和することが難しくなる、より惨めな現象であるLSM妄想を識別する。
論文 参考訳(メタデータ) (2025-03-09T17:59:16Z) - The Law of Knowledge Overshadowing: Towards Understanding, Predicting, and Preventing LLM Hallucination [85.18584652829799]
本稿では,知識のシェードイングをモデル化することで,事実の幻覚を定量化する新しい枠組みを提案する。
オーバシャドウ(27.9%)、MemoTrap(13.1%)、NQ-Swap(18.3%)のモデル事実性を顕著に向上させる。
論文 参考訳(メタデータ) (2025-02-22T08:36:06Z) - Trust Me, I'm Wrong: High-Certainty Hallucinations in LLMs [45.13670875211498]
LLM(Large Language Models)はしばしば、幻覚として知られる実世界の事実に根ざしていない出力を生成する。
モデルが正しい知識を持つ場合でも、高い確実性で幻覚できることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。