Fugu-MT 論文翻訳(概要): Finding Neurons in a Haystack: Case Studies with Sparse Probing

論文の概要: Finding Neurons in a Haystack: Case Studies with Sparse Probing

arxiv url: http://arxiv.org/abs/2305.01610v2
Date: Fri, 2 Jun 2023 21:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 01:38:03.192624
Title: Finding Neurons in a Haystack: Case Studies with Sparse Probing
Title（参考訳）: ヘイスタックにおけるニューロンの発見 : スパースプローブを用いたケーススタディ
Authors: Wes Gurnee, Neel Nanda, Matthew Pauly, Katherine Harvey, Dmitrii Troitskii, Dimitris Bertsimas
Abstract要約: 大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。 k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
参考スコア（独自算出の注目度）: 2.278231643598956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rapid adoption and deployment of large language models (LLMs), the internal computations of these models remain opaque and poorly understood. In this work, we seek to understand how high-level human-interpretable features are represented within the internal neuron activations of LLMs. We train $k$-sparse linear classifiers (probes) on these internal activations to predict the presence of features in the input; by varying the value of $k$ we study the sparsity of learned representations and how this varies with model scale. With $k=1$, we localize individual neurons which are highly relevant for a particular feature, and perform a number of case studies to illustrate general properties of LLMs. In particular, we show that early layers make use of sparse combinations of neurons to represent many features in superposition, that middle layers have seemingly dedicated neurons to represent higher-level contextual features, and that increasing scale causes representational sparsity to increase on average, but there are multiple types of scaling dynamics. In all, we probe for over 100 unique features comprising 10 different categories in 7 different models spanning 70 million to 6.9 billion parameters.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な採用と展開にもかかわらず、これらのモデルの内部計算は不透明で理解されていない。本研究では,LLMの内部ニューロン活性化において,高レベルのヒト解釈可能特徴がどのように表現されているかを理解することを目的とする。私たちは、これらの内部アクティベーションに対して、$k$-スパース線形分類子(probes)を訓練して、入力中の特徴の存在を予測する。 k=1$で、特定の特徴に高い関係を持つ個々のニューロンを局在させ、LLMの一般的な性質を説明するために多くのケーススタディを実行する。特に、初期層は、重ね合わせにおける多くの特徴を表現するために、神経細胞の疎結合を利用し、中層は高次文脈特徴を表現するために専用のニューロンを持っているように見え、スケールの増大は平均的に表現の空間性を増大させるが、複数の種類のスケーリングダイナミクスが存在することを示す。総じて、70万から690億のパラメータにまたがる7つの異なるモデルの10のカテゴリからなる100以上のユニークな特徴を探索する。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Flash Interpretability: Decoding Specialised Feature Neurons in Large Language Models with the LM-Head [0.0]
本研究では,大きな言語モデルの最終射影層を通じて,ニューロンの重みを直接トークン確率に復号することが可能であることを示す。これはLlama 3.1 8Bで説明され、LMヘッドを用いて「犬」ニューロンや「カリフォルニア」ニューロンのような特化された特徴ニューロンの例を見つける。
論文参考訳（メタデータ） (2025-01-05T23:35:47Z)
Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。 LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-10-16T07:47:45Z)
Exploring Behavior-Relevant and Disentangled Neural Dynamics with Generative Diffusion Models [2.600709013150986]
行動の神経基盤を理解することは神経科学の基本的な目標である。私たちのアプローチは、BeNeDiff'と呼ばれるもので、まずきめ細やかな神経部分空間を識別します。次に、最先端の生成拡散モデルを使用して、各潜伏因子の神経力学を解釈する行動ビデオを合成する。
論文参考訳（メタデータ） (2024-10-12T18:28:56Z)
Modularity in Transformers: Investigating Neuron Separability & Specialization [0.0]
トランスフォーマーモデルは様々なアプリケーションでますます普及していますが、内部動作に対する我々の理解は限定的です。本稿では、視覚(ViT)モデルと言語(Mistral 7B)モデルの両方に着目し、トランスフォーマーアーキテクチャ内のニューロンのモジュラリティとタスクの特殊化について検討する。選択的プルーニングとMoEficationクラスタリングの組み合わせを用いて、異なるタスクやデータサブセットにわたるニューロンの重複と特殊化を分析する。
論文参考訳（メタデータ） (2024-08-30T14:35:01Z)
SPIN: Sparsifying and Integrating Internal Neurons in Large Language Models for Text Classification [6.227343685358882]
本稿では,テキスト分類のための大規模言語モデルの中間層の内部ニューロンを分散・統合するモデルに依存しないフレームワークを提案する。 SPINはテキスト分類の精度、効率、解釈可能性を大幅に改善する。
論文参考訳（メタデータ） (2023-11-27T16:28:20Z)
Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文参考訳（メタデータ） (2023-08-28T12:55:13Z)
The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。 ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文参考訳（メタデータ） (2023-06-14T13:34:13Z)
Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2022-10-25T14:45:15Z)
Understanding Neural Coding on Latent Manifolds by Sharing Features and Dividing Ensembles [3.625425081454343]
システム神経科学は、単一ニューロンのチューニング曲線と集団活動の分析を特徴とする2つの相補的な神経データ観に依存している。これらの2つの視点は、潜伏変数とニューラルアクティビティの関係を制約するニューラル潜伏変数モデルにおいてエレガントに結合する。ニューラルチューニング曲線にまたがる機能共有を提案し、性能を大幅に改善し、より良い最適化を実現する。
論文参考訳（メタデータ） (2022-10-06T18:37:49Z)
Simple and complex spiking neurons: perspectives and analysis in a simple STDP scenario [0.7829352305480283]
スパイキングニューラルネットワーク(SNN)は、生物学や神経科学にヒントを得て、高速で効率的な学習システムを構築する。この研究は、文学における様々なニューロンモデルを考察し、単変数で効率的な計算ニューロンモデルを選択し、様々な種類の複雑さを提示する。我々は, LIF, Quadratic I&F (QIF) および Exponential I&F (EIF) の3つの単純なI&Fニューロンモデルの比較研究を行い, より複雑なモデルの使用によってシステムの性能が向上するかどうかを検証した。
論文参考訳（メタデータ） (2022-06-28T10:01:51Z)
The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文参考訳（メタデータ） (2020-12-07T01:20:38Z)
Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文参考訳（メタデータ） (2020-02-02T21:09:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。