論文の概要: Large Language Models Do NOT Really Know What They Don't Know
- arxiv url: http://arxiv.org/abs/2510.09033v1
- Date: Fri, 10 Oct 2025 06:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.201775
- Title: Large Language Models Do NOT Really Know What They Don't Know
- Title(参考訳): 大規模言語モデルは、何を知らないのかを知らない
- Authors: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng,
- Abstract要約: 最近の研究は、大言語モデル(LLM)が、その内部表現に事実性信号をエンコードしていることを示唆している。
LLMは、ショートカットやスプリアスアソシエーションに頼ることで、事実エラーを発生させることもできる。
- 参考スコア(独自算出の注目度): 37.641827402866845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work suggests that large language models (LLMs) encode factuality signals in their internal representations, such as hidden states, attention weights, or token probabilities, implying that LLMs may "know what they don't know". However, LLMs can also produce factual errors by relying on shortcuts or spurious associations. These error are driven by the same training objective that encourage correct predictions, raising the question of whether internal computations can reliably distinguish between factual and hallucinated outputs. In this work, we conduct a mechanistic analysis of how LLMs internally process factual queries by comparing two types of hallucinations based on their reliance on subject information. We find that when hallucinations are associated with subject knowledge, LLMs employ the same internal recall process as for correct responses, leading to overlapping and indistinguishable hidden-state geometries. In contrast, hallucinations detached from subject knowledge produce distinct, clustered representations that make them detectable. These findings reveal a fundamental limitation: LLMs do not encode truthfulness in their internal states but only patterns of knowledge recall, demonstrating that "LLMs don't really know what they don't know".
- Abstract(参考訳): 最近の研究は、大きな言語モデル(LLM)が、隠された状態、注意重み、トークン確率などの内部表現において事実性信号を符号化していることを示唆しており、LLMが「知らないことを知っている」ことを示唆している。
しかし、LLMはショートカットやスプリアスアソシエーションに頼ることで、事実エラーを発生させることもできる。
これらの誤差は、正しい予測を促す同じトレーニング目標によって駆動され、内部計算が事実と幻覚的出力を確実に区別できるかどうかという疑問が提起される。
本研究では,2種類の幻覚を主観的情報に依存して比較することにより,LLMが実際のクエリを内部的に処理する方法を機械論的に分析する。
幻覚が主観的知識と結びついている場合、LLMは正しい応答のために同じ内部的リコールプロセスを用いており、重なり合い、識別不能な隠れ状態のジオメトリをもたらすことが判明した。
対照的に、主題の知識から切り離された幻覚は別個のクラスタ化された表現を生み出し、それらを検出することができる。
LLMは内部状態の真理性を符号化せず、知識のパターンのみを記憶し、「LLMは自分が知らないことを本当に知らない」ことを示す。
関連論文リスト
- LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations [46.351064535592336]
大規模言語モデル(LLM)は、事実の不正確さやバイアス、推論失敗など、しばしばエラーを発生させる。
近年の研究では、LLMの内部状態が出力の真偽に関する情報を符号化していることが示されている。
LLMの内部表現は、これまで認識されていた以上の真理性に関する情報を符号化している。
論文 参考訳(メタデータ) (2024-10-03T17:31:31Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - Teaching Large Language Models to Express Knowledge Boundary from Their Own Signals [53.273592543786705]
大規模言語モデル (LLM) は大きな成功を収めたが、時折そのコンテンツ作成(幻覚)は実用的応用を制限している。
本稿では,まず内部信頼度を用いてLLMの知識境界を探索し,探索結果を利用して知識境界の表現を抽出するCoKEを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:07:20Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。