論文の概要: Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer
- arxiv url: http://arxiv.org/abs/2605.22007v1
- Date: Thu, 21 May 2026 05:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.102043
- Title: Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer
- Title(参考訳): コミットメントの失敗としての幻覚: 回答を知っていながら、より大きなLSMが失敗に終わる
- Authors: Jewon Yeom, Jaewon Sok, Heejun Kim, Seonghyeon Park, Jeongjae Park, Taesup Kim,
- Abstract要約: 我々は,同じ解答概念を表すトークンレベルの変種を集約する,解答可利用性のセマンティックな概念を導入する。
モデルが答をコミットした時点で、正しい概念がすでに利用可能かどうかを問う。
Qwen と Llama は、インストラクションとベースの両方の変種において 0.8B から 72B までのモデルで、インストラクトの幻覚の 16-47% は、既に正しい概念に基づいてかなりの確率質量で発生している。
- 参考スコア(独自算出の注目度): 8.883246421566243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination is often viewed as a direct consequence of missing knowledge: a model answers incorrectly when the correct answer is absent from its generation-time distribution, and correctly when it is present. We test this assumption by introducing a semantic notion of answer availability that aggregates token-level variants expressing the same answer concept, and asks whether the correct concept is already available at the moment the model commits to an answer. Across Qwen and Llama models from 0.8B to 72B in both Instruct and Base variants, 16-47% of Instruct hallucinations occur with substantial probability mass already on the correct concept, and the rate rises monotonically with scale. Comparing such failures against correct generations with matched semantic support, the distinguishing factor is not whether the correct concept is represented, but how its probability is distributed: correct generations concentrate mass on a single surface form, hallucinations disperse it across alternatives. The same sharpening asymmetry extends across multi-token generation and is detectable in pre-generation hidden states. Together, these results identify a single mechanism: instruction tuning sharpens answer commitment with scale, making helpfulness and confident hallucination two consequences of the same underlying disposition.
- Abstract(参考訳): モデルが正しい答えが生成時分布から欠落しているとき、そしてそれが存在しないとき、正しく答える。
この仮定は,同一の解答概念を表すトークンレベルの変種を集約するセマンティックな解答可用性の概念を導入し,モデルが解答にコミットした時点で,正しい解答概念が既に利用可能かどうかを問うものである。
Qwen と Llama のモデルでは、インストラクションとベースの両方の変種において0.8B から72B まで、インストラクトの幻覚の 16-47% は、既に正しい概念に基づいてかなりの確率質量で発生し、その速度はスケールとともに単調に上昇する。
正しい世代に対するこのような失敗と一致したセマンティックサポートを比較すると、区別要因は正しい概念が表現されているかどうかではなく、どのようにその確率が分散されるかである。
同じ鋭い非対称性は、マルチトーケン世代にまたがって広がり、前世代の隠れ状態でも検出できる。
これらの結果は1つのメカニズムを識別する: 指導チューニングはスケールへのコミットメントを鋭くし、役に立つものと自信ある幻覚を与える。
関連論文リスト
- Feeling the Strength but Not the Source: Partial Introspection in LLMs [0.0]
人類学的な主張では、フロンティアモデルは時々、活性化方向として表される「概念」を検知し、名前を付けることができる。
われわれは、Meta-Llama-3.1-8B-Instruct上で、Arthropicのマルチターン「エマージェントイントロスペクション」の結果を再現する。
イントロスペクションは、非常に大きなモデルや有能なモデルに限らない。
論文 参考訳(メタデータ) (2025-12-13T17:51:13Z) - Counting Hallucinations in Diffusion Models [34.45858211220468]
拡散確率モデル(DPM)は、画像やビデオ合成などの生成タスクにおいて顕著な進歩を見せている。
彼らはしばしば、現実世界の知識と矛盾する幻覚的なサンプル(幻覚)を生産する。
その流行にもかかわらず、そのような幻覚を体系的に定量化するための実現可能な方法論の欠如は進歩を妨げている。
論文 参考訳(メタデータ) (2025-10-15T01:48:04Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - Distinguishing Ignorance from Error in LLM Hallucinations [43.62904897907926]
モデルがパラメータに正しい答えを持たない場合、HK-と呼ばれる場合、HK+と呼ばれる必要な知識があるにもかかわらず、モデルが正しく答えない場合の2つのタイプの幻覚を区別する。
モデル固有の幻覚データセットの構築をモチベーションとし,異なるモデルが異なる例に幻覚を呈することを示す。
論文 参考訳(メタデータ) (2024-10-29T14:31:33Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。