論文の概要: Sparse Interventions in Language Models with Differentiable Masking
- arxiv url: http://arxiv.org/abs/2112.06837v1
- Date: Mon, 13 Dec 2021 17:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:08:58.191468
- Title: Sparse Interventions in Language Models with Differentiable Masking
- Title(参考訳): 異なるマスキングを持つ言語モデルにおけるスパース介入
- Authors: Nicola De Cao, Leon Schmid, Dieuwke Hupkes, Ivan Titov
- Abstract要約: 本稿では,言語現象の原因となるニューロンの小さなサブセットをニューラルLM内で発見する手法を提案する。
実験により、これらの現象はニューロンの小さなサブセットを介して媒介されていることが確認された。
- 参考スコア(独自算出の注目度): 37.220380160016624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a lot of interest in understanding what information is
captured by hidden representations of language models (LMs). Typically,
interpretation methods i) do not guarantee that the model actually uses the
encoded information, and ii) do not discover small subsets of neurons
responsible for a considered phenomenon. Inspired by causal mediation analysis,
we propose a method that discovers within a neural LM a small subset of neurons
responsible for a particular linguistic phenomenon, i.e., subsets causing a
change in the corresponding token emission probabilities. We use a
differentiable relaxation to approximately search through the combinatorial
space. An $L_0$ regularization term ensures that the search converges to
discrete and sparse solutions. We apply our method to analyze subject-verb
number agreement and gender bias detection in LSTMs. We observe that it is fast
and finds better solutions than the alternative (REINFORCE). Our experiments
confirm that each of these phenomenons is mediated through a small subset of
neurons that do not play any other discernible role.
- Abstract(参考訳): 言語モデル(LM)の隠れ表現によって得られる情報を理解することに、多くの関心が寄せられている。
通常 解釈方法は
i) モデルが実際にエンコードされた情報を使用していることを保証していないこと,及び
ii) 考慮される現象の原因となるニューロンの小さな部分集合を見出さないこと。
因果媒介分析に着想を得て,特定の言語現象の原因となるニューロンの小さなサブセット,すなわち,対応するトークン放出確率の変化を引き起こすサブセットをニューラルLM内で発見する手法を提案する。
我々は組合せ空間を概ね探索するために微分可能な緩和を用いる。
l_0$正規化項は、探索が離散解とスパース解に収束することを保証する。
本手法をLSTMにおける主観的動詞数一致と性差検出に応用する。
我々は、それが高速であり、代替(REINFORCE)よりも優れた解を見つけることを観察する。
実験により、これらの現象は、他の識別可能な役割を果たさないニューロンの小さなサブセットを介して媒介されていることが確認された。
関連論文リスト
- Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models [14.594698598522797]
特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。
辞書学習(Dictionary Learning)と呼ばれる手法を用いて、LSMの活性化を個々の特徴に対応するニューロンにまたがる解釈可能な空間に変換する。
実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
論文 参考訳(メタデータ) (2024-10-09T15:18:57Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - New Interpretable Patterns and Discriminative Features from Brain
Functional Network Connectivity Using Dictionary Learning [21.676573007839544]
ICAは、健康管理(HC)と統合失調症(Sz)などの様々な精神疾患患者とを区別できるパターンを識別できる
辞書学習(DL)は、空間性を用いて学習可能な基礎信号を用いて、データ中の隠れた情報の発見を可能にする。
本稿では,直接解釈可能なパターンの同定にICAとDLを活用し,HC群とSz群を識別する手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T19:49:16Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。
話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。
i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文 参考訳(メタデータ) (2021-07-01T13:32:55Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。