Fugu-MT 論文翻訳(概要): Locating Factual Knowledge in Large Language Models: Exploring the Residual Stream and Analyzing Subvalues in Vocabulary Space

論文の概要: Locating Factual Knowledge in Large Language Models: Exploring the Residual Stream and Analyzing Subvalues in Vocabulary Space

arxiv url: http://arxiv.org/abs/2312.12141v2
Date: Tue, 30 Jan 2024 12:19:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 18:31:14.145996
Title: Locating Factual Knowledge in Large Language Models: Exploring the Residual Stream and Analyzing Subvalues in Vocabulary Space
Title（参考訳）: 大規模言語モデルにおけるファクチュアル知識の配置:残差ストリームの探索と語彙空間における部分値の解析
Authors: Zeping Yu, Sophia Ananiadou
Abstract要約: 残差ストリームを探索することにより,大規模言語モデルにおける事実的知識の所在を見いだす。語彙空間に投影する際、サブバリューが人間に解釈可能な概念を持つ理由が分かる。
参考スコア（独自算出の注目度）: 23.004639058802898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We find the location of factual knowledge in large language models by exploring the residual stream and analyzing subvalues in vocabulary space. We find the reason why subvalues have human-interpretable concepts when projecting into vocabulary space. The before-softmax values of subvalues are added by an addition function, thus the probability of top tokens in vocabulary space will increase. Based on this, we find using log probability increase to compute the significance of layers and subvalues is better than probability increase, since the curve of log probability increase has a linear monotonically increasing shape. Moreover, we calculate the inner products to evaluate how much a feed-forward network (FFN) subvalue is activated by previous layers. Base on our methods, we find where factual knowledge <France, capital, Paris> is stored. Specifically, attention layers store "Paris is related to France". FFN layers store "Paris is a capital/city", activated by attention subvalues related to "capital". We leverage our method on Baevski-18, GPT2 medium, Llama-7B and Llama-13B. Overall, we provide a new method for understanding the mechanism of transformers. We will release our code on github.
Abstract（参考訳）: 残差ストリームを探索し,語彙空間のサブ値を分析することにより,大規模言語モデルにおける事実的知識の所在を見いだす。語彙空間に投影する際、サブバリューが人間解釈可能な概念を持つ理由が分かる。サブ値の前ソフトマックス値は加算関数によって加算されるので、語彙空間におけるトップトークンの確率は増加する。これに基づいて、ログ確率増加曲線は線形単調に増大するので、層とサブ値の重要度を計算するためにログ確率増加を用いると、確率増加よりも優れた値が得られる。さらに, 内部積を計算し, フィードフォワードネットワーク (ffn) のサブ値が前層によってどの程度活性化されるかを評価する。我々の手法に基づいて、事実知識<France, capital, Paris>がどこに保管されているかが分かる。特に注意層は「パリはフランスに関連している」と記憶している。 FFNレイヤは"Paris is a capital/city"を格納し、"Capital"に関連する注目サブバリューによって起動される。本手法はBaevski-18, GPT2, Llama-7B, Llama-13Bに応用した。全体として,トランスのメカニズムを理解するための新しい手法を提案する。私たちはgithubでコードを公開します。

関連論文リスト

NEAT: Concept driven Neuron Attribution in LLMs [2.436631469537453]
最終予測に責任を負うニューロンの配置は、ブラックボックスの大きな言語モデルを開く上で重要である。本稿では、特定の概念を表現し、それらのニューロンを概念ニューロンとして表現する重要なニューロンの配置法を提案する。
論文参考訳（メタデータ） (2025-08-21T10:36:00Z)
Skeletonization of neuronal processes using Discrete Morse techniques from computational topology [3.9341278092649925]
脊椎動物脳におけるメソスケール神経回路のマッピング手法を提案する。ラベル付き軸索の断片を骨格化し、体積長の密度を推定することで、基底ニューロンとよりうまく結びついている。この手法は、非局所接続情報を考慮し、ノイズロバスト性を提供する。
論文参考訳（メタデータ） (2025-05-12T16:59:36Z)
Neuron Empirical Gradient: Discovering and Quantifying Neurons Global Linear Controllability [14.693407823048478]
本研究はまず,ニューロン活性化とモデル出力の数値的関係について検討する。ニューロン実験勾配(NEG)の正確かつ効率的な計算法であるNeurGradを導入する。
論文参考訳（メタデータ） (2024-12-24T00:01:24Z)
Growing Deep Neural Network Considering with Similarity between Neurons [4.32776344138537]
我々は、訓練段階におけるコンパクトモデルにおいて、ニューロン数を漸進的に増加させる新しいアプローチを探求する。本稿では,ニューロン類似性分布に基づく制約を導入することにより,特徴抽出バイアスと神経冗長性を低減する手法を提案する。 CIFAR-10とCIFAR-100データセットの結果、精度が向上した。
論文参考訳（メタデータ） (2024-08-23T11:16:37Z)
Linear Explanations for Individual Neurons [12.231741536057378]
高い活性化範囲は、ニューロンの因果効果のごく一部にのみ寄与することを示す。さらに、低いアクティベーションを引き起こす入力は、しばしば非常に異なるものであり、高いアクティベーションを見るだけでは確実に予測できない。
論文参考訳（メタデータ） (2024-05-10T23:48:37Z)
Simple and Effective Transfer Learning for Neuro-Symbolic Integration [50.592338727912946]
この問題の潜在的な解決策はNeuro-Symbolic Integration (NeSy)であり、ニューラルアプローチとシンボリック推論を組み合わせる。これらの手法のほとんどは、認識をシンボルにマッピングするニューラルネットワークと、下流タスクの出力を予測する論理的論理的推論を利用する。それらは、緩やかな収束、複雑な知覚タスクの学習困難、局所的なミニマへの収束など、いくつかの問題に悩まされている。本稿では,これらの問題を改善するための簡易かつ効果的な方法を提案する。
論文参考訳（メタデータ） (2024-02-21T15:51:01Z)
Hebbian Learning based Orthogonal Projection for Continual Learning of Spiking Neural Networks [74.3099028063756]
我々は,側方接続とヘビアン学習に基づくニューラル操作を用いた新しい手法を開発した。我々は,反復する側方接続におけるヘビアン学習と反ヘビアン学習が,神経活動の主部分空間を効果的に抽出できることを示した。我々の手法は、ほとんど忘れることなくニューラルネットワークをスパイクするために一貫して解決する。
論文参考訳（メタデータ） (2024-02-19T09:29:37Z)
Identifying Interpretable Visual Features in Artificial and Biological Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文参考訳（メタデータ） (2023-10-17T17:41:28Z)
Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文参考訳（メタデータ） (2023-05-31T14:44:33Z)
Redundancy and Concept Analysis for Code-trained Language Models [5.726842555987591]
コード学習言語モデルは、様々なコードインテリジェンスタスクに非常に効果的であることが証明されている。計算ボトルネックとメモリ制約のため、多くのソフトウェアエンジニアリングアプリケーションのトレーニングとデプロイが難しい場合がある。我々は,ソースコードモデルに対する最初のニューロンレベルの解析を行い,潜在表現内でのテクスチエントニューロンの同定を行う。
論文参考訳（メタデータ） (2023-05-01T15:22:41Z)
Constraints on the design of neuromorphic circuits set by the properties of neural population codes [61.15277741147157]
脳内では、情報はコード化され、伝達され、行動を伝えるために使用される。ニューロモルフィック回路は、脳内のニューロンの集団が使用するものと互換性のある方法で情報を符号化する必要がある。
論文参考訳（メタデータ） (2022-12-08T15:16:04Z)
Neuro-Symbolic Learning of Answer Set Programs from Raw Data [54.56905063752427]
Neuro-Symbolic AIは、シンボリックテクニックの解釈可能性と、生データから学ぶ深層学習の能力を組み合わせることを目的としている。本稿では,ニューラルネットワークを用いて生データから潜在概念を抽出するNSIL(Neuro-Symbolic Inductive Learner)を提案する。 NSILは表現力のある知識を学習し、計算的に複雑な問題を解き、精度とデータ効率の観点から最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-05-25T12:41:59Z)
Dynamic Neural Diversification: Path to Computationally Sustainable Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。学習過程において隠れた層内のニューロンの多様性を探索する。ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文参考訳（メタデータ） (2021-09-20T15:12:16Z)
Neuron-based explanations of neural networks sacrifice completeness and interpretability [67.53271920386851]
我々は、ImageNetで事前訓練されたAlexNetに対して、ニューロンに基づく説明法が完全性と解釈可能性の両方を犠牲にすることを示す。我々は、最も重要な主成分が、最も重要なニューロンよりも完全で解釈可能な説明を提供することを示す。この結果から,AlexNet などのネットワークに対する説明手法は,ニューロンを埋め込みの基盤として使用するべきではないことが示唆された。
論文参考訳（メタデータ） (2020-11-05T21:26:03Z)
Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文参考訳（メタデータ） (2020-06-24T20:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。