論文の概要: Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks
- arxiv url: http://arxiv.org/abs/2506.00823v1
- Date: Sun, 01 Jun 2025 03:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.683756
- Title: Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks
- Title(参考訳): 真理幾何学の証明:論理変換と問答課題における真理方向の整合性と一般化
- Authors: Yuntai Bao, Xuhong Zhang, Tianyu Du, Xinkui Zhao, Zhengwen Feng, Hao Peng, Jianwei Yin,
- Abstract要約: 我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。
以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。
宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
- 参考スコア(独自算出の注目度): 31.379237532476875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are trained on extensive datasets that encapsulate substantial world knowledge. However, their outputs often include confidently stated inaccuracies. Earlier works suggest that LLMs encode truthfulness as a distinct linear feature, termed the "truth direction", which can classify truthfulness reliably. We address several open questions about the truth direction: (i) whether LLMs universally exhibit consistent truth directions; (ii) whether sophisticated probing techniques are necessary to identify truth directions; and (iii) how the truth direction generalizes across diverse contexts. Our findings reveal that not all LLMs exhibit consistent truth directions, with stronger representations observed in more capable models, particularly in the context of logical negation. Additionally, we demonstrate that truthfulness probes trained on declarative atomic statements can generalize effectively to logical transformations, question-answering tasks, in-context learning, and external knowledge sources. Finally, we explore the practical application of truthfulness probes in selective question-answering, illustrating their potential to improve user trust in LLM outputs. These results advance our understanding of truth directions and provide new insights into the internal representations of LLM beliefs. Our code is public at https://github.com/colored-dye/truthfulness_probe_generalization
- Abstract(参考訳): 大規模言語モデル(LLM)は、かなりの世界の知識をカプセル化した広範なデータセットに基づいて訓練されている。
しかし、そのアウトプットには確実な不正確さがしばしば含まれている。
初期の研究は、LLMが真理を別個の線形特徴としてエンコードしており、「真理方向」と呼ばれ、真理を確実に分類できることを示唆していた。
真理の方向性に関するいくつかのオープンな疑問に対処する。
一 LLM が一貫した真理の方向性を普遍的に示すか否か。
二 真理の方向性を特定するために高度な探究技術が必要であるか否か、及び
(三)真理の方向性が様々な文脈にまたがる一般化の仕方
以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,特に論理否定の文脈において,より有能なモデルでより強い表現が観察されることがわかった。
さらに、宣言的原子文に基づいて訓練された真理性プローブが、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを実証する。
最後に,LLM出力におけるユーザ信頼向上の可能性について考察し,真理性探究の実践的応用について考察する。
これらの結果は、真理方向の理解を促進し、LLM信念の内部表現に関する新たな洞察を提供する。
私たちのコードはhttps://github.com/color-dye/truthfulness_probe_ generalizationで公開されています。
関連論文リスト
- Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚
不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。
近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文 参考訳(メタデータ) (2025-05-22T11:00:53Z) - TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space [31.769428095250912]
大規模言語モデル(LLM)は、正しい知識を知っていても、時に非現実的な応答を生成する。
LLMの真偽を活性化する推論時間介入手法であるTrathXを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:45:04Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。