論文の概要: Truth Neurons
- arxiv url: http://arxiv.org/abs/2505.12182v2
- Date: Sat, 28 Jun 2025 18:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.354856
- Title: Truth Neurons
- Title(参考訳): 真性ニューロン
- Authors: Haohang Li, Yupeng Cao, Yangyang Yu, Jordan W. Suchow, Zining Zhu,
- Abstract要約: 言語モデルには真理ニューロンが含まれており、真理を主題に依存しない方法で符号化していることを示す。
様々なスケールのモデルで行われた実験は、真理ニューロンの存在を検証する。
- 参考スコア(独自算出の注目度): 3.5138878799596034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their remarkable success and deployment across diverse workflows, language models sometimes produce untruthful responses. Our limited understanding of how truthfulness is mechanistically encoded within these models jeopardizes their reliability and safety. In this paper, we propose a method for identifying representations of truthfulness at the neuron level. We show that language models contain truth neurons, which encode truthfulness in a subject-agnostic manner. Experiments conducted across models of varying scales validate the existence of truth neurons, confirming that the encoding of truthfulness at the neuron level is a property shared by many language models. The distribution patterns of truth neurons over layers align with prior findings on the geometry of truthfulness. Selectively suppressing the activations of truth neurons found through the TruthfulQA dataset degrades performance both on TruthfulQA and on other benchmarks, showing that the truthfulness mechanisms are not tied to a specific dataset. Our results offer novel insights into the mechanisms underlying truthfulness in language models and highlight potential directions toward improving their trustworthiness and reliability.
- Abstract(参考訳): さまざまなワークフローにまたがる顕著な成功とデプロイメントにもかかわらず、言語モデルは時に非現実的な応答を生み出す。
これらのモデルの中で、真理性がどのように機械的に符号化されているかという私たちの限られた理解は、その信頼性と安全性を損なう。
本稿では,ニューロンレベルでの真理性の表現を識別する手法を提案する。
言語モデルには真理ニューロンが含まれており、真理を主題に依存しない方法で符号化していることを示す。
様々なスケールの実験により、真理ニューロンの存在が証明され、ニューロンレベルで真理の符号化が多くの言語モデルで共有される特性であることが確認された。
層上の真理ニューロンの分布パターンは、真理の幾何学に関する以前の知見と一致している。
TruthfulQAデータセットから発見された真理ニューロンの活性化を選択的に抑制することは、TrathfulQAと他のベンチマークの両方のパフォーマンスを低下させ、真理性メカニズムが特定のデータセットに結び付けられていないことを示す。
本研究は,言語モデルにおける真理性のメカニズムに関する新たな知見を提供し,信頼性と信頼性の向上に向けた潜在的方向性を明らかにする。
関連論文リスト
- Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文 参考訳(メタデータ) (2024-10-21T19:12:33Z) - Range, not Independence, Drives Modularity in Biologically Inspired Representations [52.48094670415497]
我々は、生物学的にインスピレーションを受けたネットワークが、ソース変数(ソース)の表現をモジュール化する理論を開発する。
我々は、最適な線形オートエンコーダのニューロンがモジュラー化するかどうかを決定するソースのサンプルに対して、必要かつ十分な条件を導出する。
我々の理論はどんなデータセットにも当てはまり、以前の研究で研究された統計的な独立性よりもはるかに長い。
論文 参考訳(メタデータ) (2024-10-08T17:41:37Z) - Generative causal testing to bridge data-driven models and scientific theories in language neuroscience [82.995061475971]
脳における言語選択性の簡潔な説明を生成するためのフレームワークである生成因果テスト(GCT)を提案する。
GCTは機能的選択性に類似した脳領域の細粒度の違いを識別できることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文 参考訳(メタデータ) (2022-08-25T10:21:23Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Learning identifiable and interpretable latent models of
high-dimensional neural activity using pi-VAE [10.529943544385585]
本稿では,潜在モデルと従来のニューラルエンコーディングモデルから重要な要素を統合する手法を提案する。
我々の手法であるpi-VAEは、同定可能な変分自動エンコーダの最近の進歩にインスパイアされている。
人工データを用いてpi-VAEを検証し,それをラット海馬およびマカク運動野の神経生理学的データセットの解析に応用した。
論文 参考訳(メタデータ) (2020-11-09T22:00:38Z) - Facts as Experts: Adaptable and Interpretable Neural Memory over
Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。
このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-07-02T03:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。