論文の概要: LLM Knowledge is Brittle: Truthfulness Representations Rely on Superficial Resemblance
- arxiv url: http://arxiv.org/abs/2510.11905v1
- Date: Mon, 13 Oct 2025 20:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.086448
- Title: LLM Knowledge is Brittle: Truthfulness Representations Rely on Superficial Resemblance
- Title(参考訳): LLMの知識は弱く、表象の真さが表象の表象を表わす
- Authors: Patrick Haller, Mark Ibrahim, Polina Kirichenko, Levent Sagun, Samuel J. Bell,
- Abstract要約: サンプルの提示が事前学習中に見られたものとあまり似ないようになると,文の真偽表現が崩壊することを示す。
これらの結果から、脆性ベンチマークのパフォーマンスが説明できる。
- 参考スコア(独自算出の注目度): 19.466678464397216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For Large Language Models (LLMs) to be reliable, they must learn robust knowledge that can be generally applied in diverse settings -- often unlike those seen during training. Yet, extensive research has shown that LLM performance can be brittle, with models exhibiting excessive sensitivity to trivial input variations. In this work, we explore whether this brittleness is a direct result of unstable internal knowledge representations. To explore this question, we build on previous work showing that LLM representations encode statement truthfulness -- i.e., true, factual statements can be easily separated from false, inaccurate ones. Specifically, we test the robustness of learned knowledge by evaluating representation separability on samples that have undergone superficial transformations to drive them out-of-distribution (OOD), such as typos or reformulations. By applying semantically-preserving perturbations, we study how separability degrades as statements become more OOD, across four LLM families, five evaluation datasets, and three knowledge probing methods. Our results reveal that internal representations of statement truthfulness collapse as the samples' presentations become less similar to those seen during pre-training. While LLMs can often distinguish between true and false statements when they closely resemble the pre-training data, this ability is highly dependent on the statement's exact surface form. These findings offer a possible explanation for brittle benchmark performance: LLMs may learn shallow, non-robust knowledge representations that allow for only limited generalizability. Our work presents a fundamental challenge for the utility of truthfulness probes, and more broadly, calls for further research on improving the robustness of learned knowledge representations.
- Abstract(参考訳): 大規模言語モデル(LLM)が信頼性を持つためには、多種多様な設定で一般的に適用可能な堅牢な知識を学ばなければならない - トレーニング中に見られるものとは異なり。しかしながら、広範囲にわたる研究により、LLMのパフォーマンスは不安定である。この不安定性は不安定な内部知識表現の直接的な結果であるかどうかを考察する。この疑問を探求するために、LLM表現が真偽を符号化する、すなわち真偽のステートメントは、偽の、不正確なものから容易に分離できる、という以前の研究に基づいて構築する。
具体的には,表層変換を施したサンプルの表現分離性を評価することで学習知識のロバスト性を検証し,タイポスやリフォームのようなアウト・オブ・ディストリビューション(OOD)を駆動する。
意味的に保存される摂動を適用することで,4つのLLMファミリー,5つの評価データセット,3つの知識探索手法で,文の分離性がよりOODになるにつれてどのように劣化するかを検討する。
実験結果から, 文章の真偽表現は, サンプルの提示が事前学習中に見られるものと類似しにくくなるにつれて, 内部表現が崩壊することが明らかとなった。
LLMは、訓練前のデータとよく似ているときに、真と偽のステートメントを区別することができるが、この能力は、ステートメントの正確な表面形状に大きく依存している。
LLMは、限定的な一般化性しか持たない浅い非破壊的な知識表現を学習することができる。
我々の研究は、真理性探究の実用性に対する根本的な課題を示し、より広範に、学習された知識表現の堅牢性を改善するためのさらなる研究を求める。
関連論文リスト
- How does Misinformation Affect Large Language Model Behaviors and Preferences? [37.06385727015972]
大きな言語モデル(LLM)は、知識集約的なタスクにおいて顕著な能力を示している。
我々は,LLMの行動と誤情報に対する知識嗜好を評価するための,現在最大かつ最も包括的なベンチマークであるMisBenchを紹介する。
実証的な結果から、LLMは誤報を識別する能力に匹敵する能力を示すが、知識の衝突やスタイルのバリエーションの影響を受けやすいままであることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T17:57:44Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。