論文の概要: Analyzing Individual Neurons in Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2010.02695v1
- Date: Tue, 6 Oct 2020 13:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:05:36.767426
- Title: Analyzing Individual Neurons in Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルにおける個々のニューロンの分析
- Authors: Nadir Durrani and Hassan Sajjad and Fahim Dalvi and Yonatan Belinkov
- Abstract要約: 言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
- 参考スコア(独自算出の注目度): 41.07850306314594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While a lot of analysis has been carried to demonstrate linguistic knowledge
captured by the representations learned within deep NLP models, very little
attention has been paid towards individual neurons.We carry outa neuron-level
analysis using core linguistic tasks of predicting morphology, syntax and
semantics, on pre-trained language models, with questions like: i) do
individual neurons in pre-trained models capture linguistic information? ii)
which parts of the network learn more about certain linguistic phenomena? iii)
how distributed or focused is the information? and iv) how do various
architectures differ in learning these properties? We found small subsets of
neurons to predict linguistic tasks, with lower level tasks (such as
morphology) localized in fewer neurons, compared to higher level task of
predicting syntax. Our study also reveals interesting cross architectural
comparisons. For example, we found neurons in XLNet to be more localized and
disjoint when predicting properties compared to BERT and others, where they are
more distributed and coupled.
- Abstract(参考訳): 深部NLPモデルで学習した表現によって得られた言語知識を実証するために多くの分析が行われてきたが、個々のニューロンに対してはほとんど注目されていない。
i) 事前学習モデルにおける個々のニューロンは言語情報を取り込むか?
ii) ネットワークのどの部分が特定の言語現象についてもっと学ぶのか?
iii) 情報はどの程度分散しているか、あるいは集中しているか。
そして
iv)これらの特性の学習において,さまざまなアーキテクチャがどう違うのか?
言語的タスクを予測できるニューロンの小さなサブセットは,より少ないニューロンに局在する低レベルタスク(形態学など)と,より高レベルな構文予測タスク(構文予測)を見出した。
私たちの研究は、興味深いクロスアーキテクチャの比較も示しています。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
関連論文リスト
- Analysis of Argument Structure Constructions in a Deep Recurrent Language Model [0.0]
本稿では,再帰型ニューラルネットワークモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。
その結果, 文表現は, 全層にまたがる4つのASCに対応する異なるクラスタを形成することがわかった。
これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
論文 参考訳(メタデータ) (2024-08-06T09:27:41Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Identification of Knowledge Neurons in Protein Language Models [0.0]
キー情報の理解を表現した知識ニューロンを同定し,特徴付ける。
自己認識モジュールのキーベクトル予測ネットワークには,知識ニューロンの密度が高いことを示す。
将来的には、各ニューロンが捉えた知識の種類を特徴付けることができる。
論文 参考訳(メタデータ) (2023-12-17T17:23:43Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。
話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。
i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文 参考訳(メタデータ) (2021-07-01T13:32:55Z) - Does injecting linguistic structure into language models lead to better
alignment with brain recordings? [13.880819301385854]
言語モデルと脳記録との整合性は,構文的あるいは意味論的フォーマリズムからのアノテーションに偏りがある場合と評価する。
提案手法は,脳内の意味の組成について,より標的となる仮説の評価を可能にする。
論文 参考訳(メタデータ) (2021-01-29T14:42:02Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。