論文の概要: Disentangling Deception and Hallucination Failures in LLMs
- arxiv url: http://arxiv.org/abs/2602.14529v1
- Date: Mon, 16 Feb 2026 07:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.251617
- Title: Disentangling Deception and Hallucination Failures in LLMs
- Title(参考訳): LLMにおける錯誤と幻覚障害
- Authors: Haolang Lu, Hongrui Peng, WeiYe Fu, Guoshun Nan, Xinye Cao, Xingrui Li, Hongcan Guo, Kun Wang,
- Abstract要約: 本稿では,行動表現から知識を分離する,内部的なメカニズム指向の視点を提案する。
幻覚と騙しは、2つの定性的に異なる障害モードに対応します。
我々はこれらの障害モードを、表現分離性、スパース解釈性、推論時アクティベーションステアリングを通じて解析する。
- 参考スコア(独自算出の注目度): 7.906722750233381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Failures in large language models (LLMs) are often analyzed from a behavioral perspective, where incorrect outputs in factual question answering are commonly associated with missing knowledge. In this work, focusing on entity-based factual queries, we suggest that such a view may conflate different failure mechanisms, and propose an internal, mechanism-oriented perspective that separates Knowledge Existence from Behavior Expression. Under this formulation, hallucination and deception correspond to two qualitatively different failure modes that may appear similar at the output level but differ in their underlying mechanisms. To study this distinction, we construct a controlled environment for entity-centric factual questions in which knowledge is preserved while behavioral expression is selectively altered, enabling systematic analysis of four behavioral cases. We analyze these failure modes through representation separability, sparse interpretability, and inference-time activation steering.
- Abstract(参考訳): 大規模言語モデル(LLM)の失敗はしばしば行動の観点から分析される。
本研究は, 実体に基づく事実クエリに着目し, 異なる障害メカニズムを解明し, 行動表現から知識を分離する内部的, メカニズム指向の視点を提案する。
この定式化の下では、幻覚と騙しは、2つの定性的に異なる障害モードに対応しており、出力レベルで類似しているが、その基盤となるメカニズムが異なる。
そこで本研究では,行動表現を選択的に変更しながら知識を保存し,行動ケースを体系的に分析する,エンティティ中心の事実質問のための制御環境を構築した。
我々はこれらの障害モードを、表現分離性、スパース解釈性、推論時アクティベーションステアリングを通じて解析する。
関連論文リスト
- Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification [27.02252748004729]
大規模視覚言語モデル(LVLM)は多モーダル理解と生成において大きな進歩を見せている。
彼らはしばしば、事実幻覚や危険な指示など、信頼できない、あるいは有害な内容を生み出す。
Evidential Uncertainty Quantification (EUQ)は、LVLMの誤動作を効果的に検出するための情報競合と無知の両方をキャプチャする。
論文 参考訳(メタデータ) (2026-02-05T10:51:39Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Investigating VLM Hallucination from a Cognitive Psychology Perspective: A First Step Toward Interpretation with Intriguing Observations [60.63340688538124]
幻覚は、視覚言語モデル(VLM)で積極的に研究されている長年の問題である。
既存の研究は、幻覚は技術的な制限や梅毒のバイアスによるもので、後者はモデルがユーザの期待に沿う誤った回答を生み出す傾向があることを意味している。
本研究では, VLMの認知バイアスを分類し, サイコフィナンシー, 論理的不整合, 新たに同定された VLM の行動, 権威へのアピールなど, 幻覚へと導く。
論文 参考訳(メタデータ) (2025-07-03T19:03:16Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Self-correction is Not An Innate Capability in Large Language Models [13.268938380591765]
道徳的自己補正はLLMの本質的な能力か?」という根本的な疑問に対処することで道徳的自己補正の基盤となるメカニズムを考察する。
道徳的自己補正は、道徳的に敏感でもなく、自己補正プロセス中に外部からのフィードバックを効果的に取り入れることができないため、LLMの本質的な能力ではないことを示す。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift [12.93527098342393]
我々は,過去の行動に対する条件付けが,学習者の「実行」エラーと性能の劇的な相違につながることを論じる。
我々は、模倣学習アプローチをテストするために使用される既存のベンチマークを分析する。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-02-04T20:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。