Fugu-MT 論文翻訳(概要): Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks

論文の概要: Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks

arxiv url: http://arxiv.org/abs/2506.00823v1
Date: Sun, 01 Jun 2025 03:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 04:22:50.683756
Title: Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks
Title（参考訳）: 真理幾何学の証明:論理変換と問答課題における真理方向の整合性と一般化
Authors: Yuntai Bao, Xuhong Zhang, Tianyu Du, Xinkui Zhao, Zhengwen Feng, Hao Peng, Jianwei Yin,
Abstract要約: 我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
参考スコア（独自算出の注目度）: 31.379237532476875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are trained on extensive datasets that encapsulate substantial world knowledge. However, their outputs often include confidently stated inaccuracies. Earlier works suggest that LLMs encode truthfulness as a distinct linear feature, termed the "truth direction", which can classify truthfulness reliably. We address several open questions about the truth direction: (i) whether LLMs universally exhibit consistent truth directions; (ii) whether sophisticated probing techniques are necessary to identify truth directions; and (iii) how the truth direction generalizes across diverse contexts. Our findings reveal that not all LLMs exhibit consistent truth directions, with stronger representations observed in more capable models, particularly in the context of logical negation. Additionally, we demonstrate that truthfulness probes trained on declarative atomic statements can generalize effectively to logical transformations, question-answering tasks, in-context learning, and external knowledge sources. Finally, we explore the practical application of truthfulness probes in selective question-answering, illustrating their potential to improve user trust in LLM outputs. These results advance our understanding of truth directions and provide new insights into the internal representations of LLM beliefs. Our code is public at https://github.com/colored-dye/truthfulness_probe_generalization
Abstract（参考訳）: 大規模言語モデル(LLM)は、かなりの世界の知識をカプセル化した広範なデータセットに基づいて訓練されている。しかし、そのアウトプットには確実な不正確さがしばしば含まれている。初期の研究は、LLMが真理を別個の線形特徴としてエンコードしており、「真理方向」と呼ばれ、真理を確実に分類できることを示唆していた。真理の方向性に関するいくつかのオープンな疑問に対処する。一 LLM が一貫した真理の方向性を普遍的に示すか否か。二真理の方向性を特定するために高度な探究技術が必要であるか否か、及び (三)真理の方向性が様々な文脈にまたがる一般化の仕方以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,特に論理否定の文脈において,より有能なモデルでより強い表現が観察されることがわかった。さらに、宣言的原子文に基づいて訓練された真理性プローブが、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを実証する。最後に,LLM出力におけるユーザ信頼向上の可能性について考察し,真理性探究の実践的応用について考察する。これらの結果は、真理方向の理解を促進し、LLM信念の内部表現に関する新たな洞察を提供する。私たちのコードはhttps://github.com/color-dye/truthfulness_probe_ generalizationで公開されています。

関連論文リスト

Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文参考訳（メタデータ） (2025-05-22T11:00:53Z)
Exploring the generalization of LLM truth directions on conversational formats [0.0]
モデル内の1つの隠れ状態でトレーニングされた線形プローブは、既に様々なトピックにわたって一般化されていることを示す。嘘で終わる短い会話の間には良い一般化があるが、入力プロンプトにその嘘が早く現れるより長いフォーマットへの一般化は不十分である。
論文参考訳（メタデータ） (2025-05-14T21:21:08Z)
Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文参考訳（メタデータ） (2025-02-17T16:10:30Z)
Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。 LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文参考訳（メタデータ） (2024-06-22T03:32:09Z)
Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。真性最適化のための学習可能なインターベンション手法であるLITOを提案する。複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文参考訳（メタデータ） (2024-05-01T03:50:09Z)
Truth-Aware Context Selection: Mitigating Hallucinations of Large Language Models Being Misled by Untruthful Contexts [31.769428095250912]
大規模言語モデル(LLM)は、ユーザや知識強化ツールが提供する非現実的なコンテキストによって容易に誤解される。本稿では,入力から非現実的コンテキストを適応的に認識し,マスクするために,TACS(Trath-Aware Context Selection)を提案する。 TACSは,非現実的な文脈を効果的にフィルタリングし,誤解を招く情報を提示した場合のLLMの応答の全体的な品質を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-12T11:40:44Z)
TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space [31.769428095250912]
大規模言語モデル(LLM)は、正しい知識を知っていても、時に非現実的な応答を生成する。 LLMの真偽を活性化する推論時間介入手法であるTrathXを提案する。
論文参考訳（メタデータ） (2024-02-27T14:45:04Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文参考訳（メタデータ） (2023-10-10T17:54:39Z)
Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。 Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文参考訳（メタデータ） (2023-10-08T14:26:55Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。