論文の概要: Discovering Salient Neurons in Deep NLP Models
- arxiv url: http://arxiv.org/abs/2206.13288v2
- Date: Sun, 14 Jan 2024 13:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:59:01.556474
- Title: Discovering Salient Neurons in Deep NLP Models
- Title(参考訳): 深部NLPモデルにおけるサルエントニューロンの発見
- Authors: Nadir Durrani and Fahim Dalvi and Hassan Sajjad
- Abstract要約: 本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
- 参考スコア(独自算出の注目度): 31.18937787704794
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While a lot of work has been done in understanding representations learned
within deep NLP models and what knowledge they capture, little attention has
been paid towards individual neurons. We present a technique called as
Linguistic Correlation Analysis to extract salient neurons in the model, with
respect to any extrinsic property - with the goal of understanding how such a
knowledge is preserved within neurons. We carry out a fine-grained analysis to
answer the following questions: (i) can we identify subsets of neurons in the
network that capture specific linguistic properties? (ii) how localized or
distributed neurons are across the network? iii) how redundantly is the
information preserved? iv) how fine-tuning pre-trained models towards
downstream NLP tasks, impacts the learned linguistic knowledge? iv) how do
architectures vary in learning different linguistic properties? Our
data-driven, quantitative analysis illuminates interesting findings: (i) we
found small subsets of neurons that can predict different linguistic tasks, ii)
with neurons capturing basic lexical information (such as suffixation)
localized in lower most layers, iii) while those learning complex concepts
(such as syntactic role) predominantly in middle and higher layers, iii) that
salient linguistic neurons are relocated from higher to lower layers during
transfer learning, as the network preserve the higher layers for task specific
information, iv) we found interesting differences across pre-trained models,
with respect to how linguistic information is preserved within, and v) we found
that concept exhibit similar neuron distribution across different languages in
the multilingual transformer models. Our code is publicly available as part of
the NeuroX toolkit.
- Abstract(参考訳): 深部NLPモデルで学んだ表現や、どの知識を捉えるかを理解するために多くの研究がなされてきたが、個々のニューロンにはほとんど注意が払われていない。
言語相関分析(英語版)と呼ばれる手法により、モデル内の有意な神経細胞を、いかなる外部特性に関しても抽出し、その知識がニューロン内でどのように保存されているかを理解することを目的としている。
以下の質問に答えるために、きめ細かい分析を行う。
(i)特定の言語特性を捉えたネットワーク内のニューロンのサブセットを特定できるか?
(ii)ネットワークにまたがる局所化ニューロンや分散ニューロンはどの程度存在するか?
iii)情報がどれだけ冗長に保存されているか。
iv)学習した言語知識が下流のnlpタスクにどのように影響するか?
四 異なる言語特性の学習において、建築はどのように変化するか。
我々のデータ駆動量分析は興味深い発見を照らす。
(i)異なる言語課題を予測できるニューロンの小さなサブセットを発見した。
二 下位の層に局在する基本的な語彙情報(接尾辞等)を捉えたニューロン
三 複雑な概念(統語的役割など)を学ぶ者は、主に中層及び上層に置かれる。
三 ネットワークがタスク特定情報のために上位層を保存するため、転送学習中に、高度層から下位層に言語ニューロンを移動させること。
iv)言語情報がどのように保存されているかに関して,事前学習したモデル間で興味深い違いを見出した。
v) 概念は多言語トランスフォーマーモデルにおいて, 異なる言語にまたがる類似のニューロン分布を示すことがわかった。
私たちのコードはneurox toolkitの一部として公開されています。
関連論文リスト
- Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Identification of Knowledge Neurons in Protein Language Models [0.0]
キー情報の理解を表現した知識ニューロンを同定し,特徴付ける。
自己認識モジュールのキーベクトル予測ネットワークには,知識ニューロンの密度が高いことを示す。
将来的には、各ニューロンが捉えた知識の種類を特徴付けることができる。
論文 参考訳(メタデータ) (2023-12-17T17:23:43Z) - Investigating the Encoding of Words in BERT's Neurons using Feature
Textualization [11.943486282441143]
本稿では,埋め込み語空間におけるニューロンの表現を生成する手法を提案する。
生成した表現は、個々のニューロンにおける符号化された知識についての洞察を与えることができる。
論文 参考訳(メタデータ) (2023-11-14T15:21:49Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Natural Language Descriptions of Deep Visual Features [50.270035018478666]
オープンエンド,コンポジション,自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。
我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。
また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
論文 参考訳(メタデータ) (2022-01-26T18:48:02Z) - What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。
話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。
i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文 参考訳(メタデータ) (2021-07-01T13:32:55Z) - How transfer learning impacts linguistic knowledge in deep NLP models? [22.035813865470956]
ディープNLPモデルは、モデルの異なる層でキャプチャされた、非自明な量の言語知識を学習する。
下流のNLPタスクに対する微調整が学習言語知識に与える影響について検討する。
論文 参考訳(メタデータ) (2021-05-31T17:43:57Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。