論文の概要: Representational Stability of Truth in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.19166v1
- Date: Mon, 24 Nov 2025 14:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.25417
- Title: Representational Stability of Truth in Large Language Models
- Title(参考訳): 大規模言語モデルにおける真実の表現安定性
- Authors: Samantha Dies, Courtney Maynard, Germans Savcisens, Tina Eliassi-Rad,
- Abstract要約: 本稿では,LLMの真理の操作的定義における摂動に対する妥当性表現の頑健性として表現安定性を導入する。
トレーニングデータから欠落していると思われるエンティティに関する事実的主張と、よく知られたフィクションの文脈から引き出された非事実的主張の2つを比較した。
未知のステートメントは最大の境界シフトを引き起こし、脆弱なドメインで最大40%の真理を反転させる。
- 参考スコア(独自算出の注目度): 0.15655985886975654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely used for factual tasks such as "What treats asthma?" or "What is the capital of Latvia?". However, it remains unclear how stably LLMs encode distinctions between true, false, and neither-true-nor-false content in their internal probabilistic representations. We introduce representational stability as the robustness of an LLM's veracity representations to perturbations in the operational definition of truth. We assess representational stability by (i) training a linear probe on an LLM's activations to separate true from not-true statements and (ii) measuring how its learned decision boundary shifts under controlled label changes. Using activations from sixteen open-source models and three factual domains, we compare two types of neither statements. The first are fact-like assertions about entities we believe to be absent from any training data. We call these unfamiliar neither statements. The second are nonfactual claims drawn from well-known fictional contexts. We call these familiar neither statements. The unfamiliar statements induce the largest boundary shifts, producing up to $40\%$ flipped truth judgements in fragile domains (such as word definitions), while familiar fictional statements remain more coherently clustered and yield smaller changes ($\leq 8.2\%$). These results suggest that representational stability stems more from epistemic familiarity than from linguistic form. More broadly, our approach provides a diagnostic for auditing and training LLMs to preserve coherent truth assignments under semantic uncertainty, rather than optimizing for output accuracy alone.
- Abstract(参考訳): 大型言語モデル (LLM) は「喘息をどう扱うか」や「ラトビアの首都は何か」といった現実的なタスクに広く使われている。
しかし、LLMが内部確率表現における真、偽、偽でない内容の区別をいかに安定にエンコードするかは定かではない。
本稿では,LLMの真理の操作的定義における摂動に対する妥当性表現の頑健性として表現安定性を導入する。
我々は表現の安定性を評価する
i) LLMの活性化に関する線形プローブを訓練して、真と真とを区別し、
(2) ラベルが制御された場合, 学習した決定境界がどう変化するかを測定する。
16のオープンソースモデルと3つのファクトドメインからのアクティベーションを用いて、2つのタイプの文を比較する。
ひとつは、トレーニングデータに欠落していると思われるエンティティに関する事実のような主張です。
私たちはこれらを不慣れな言葉と呼びます。
2つ目は、よく知られた架空の文脈から引き出された非事実的主張である。
私たちはこれらに精通した言明を決して呼ばない。
不慣れな文は最大の境界シフトを誘発し、脆弱な領域(言葉の定義など)で最大40\%の真理判断を覆すが、よく知られたフィクションの文はより一貫性のあるクラスタ化され、より小さな変化をもたらす(\leq 8.2\%$)。
これらの結果から, 表現安定性は言語的形態よりも, てんかんの親和性に起因していることが示唆された。
より広範に、本手法は、出力精度のみを最適化するのではなく、セマンティック不確実性の下でコヒーレントな真理代入を保存するために、LCMの監査と訓練を行うための診断を提供する。
関連論文リスト
- Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - LLM Knowledge is Brittle: Truthfulness Representations Rely on Superficial Resemblance [19.466678464397216]
サンプルの提示が事前学習中に見られたものとあまり似ないようになると,文の真偽表現が崩壊することを示す。
これらの結果から、脆性ベンチマークのパフォーマンスが説明できる。
論文 参考訳(メタデータ) (2025-10-13T20:13:56Z) - Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks [31.379237532476875]
我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。
以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。
宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2025-06-01T03:55:53Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations [51.92795774118647]
LLMの表現空間における1つの線形特徴によって「動詞の不確実性」が支配されることがわかった。
これはモデルの実際の意味的不確実性と適度な相関しか持たないことを示す。
論文 参考訳(メタデータ) (2025-03-18T17:51:04Z) - MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。
MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文 参考訳(メタデータ) (2024-04-03T19:47:33Z) - Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文 参考訳(メタデータ) (2023-11-27T18:59:14Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。