論文の概要: Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models
- arxiv url: http://arxiv.org/abs/2210.14328v1
- Date: Tue, 25 Oct 2022 20:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:15:10.534036
- Title: Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models
- Title(参考訳): 多言語言語モデルにおける構文整合ニューロンの因果解析
- Authors: Aaron Mueller, Yu Xia, Tal Linzen
- Abstract要約: 我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
- 参考スコア(独自算出の注目度): 28.036233760742125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structural probing work has found evidence for latent syntactic information
in pre-trained language models. However, much of this analysis has focused on
monolingual models, and analyses of multilingual models have employed
correlational methods that are confounded by the choice of probing tasks. In
this study, we causally probe multilingual language models (XGLM and
multilingual BERT) as well as monolingual BERT-based models across various
languages; we do this by performing counterfactual perturbations on neuron
activations and observing the effect on models' subject-verb agreement
probabilities. We observe where in the model and to what extent syntactic
agreement is encoded in each language. We find significant neuron overlap
across languages in autoregressive multilingual language models, but not masked
language models. We also find two distinct layer-wise effect patterns and two
distinct sets of neurons used for syntactic agreement, depending on whether the
subject and verb are separated by other tokens. Finally, we find that
behavioral analyses of language models are likely underestimating how sensitive
masked language models are to syntactic information.
- Abstract(参考訳): 構造探索研究は、事前訓練された言語モデルにおける潜在構文情報の証拠を発見した。
しかし、この分析の多くは単言語モデルに焦点を合わせており、多言語モデルの解析は、探索タスクの選択によって構築された相関手法を用いている。
本研究では,多言語言語モデル(xglmおよび多言語bert)および多言語bertモデルについて,ニューロン活性化に対する反事実的摂動を行い,モデルの主観的バーブ合意確率に対する影響を観察することにより,因果的に検討する。
我々は,各言語でどのような構文合意が符号化されているかを,モデルで観察する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
また、対象と動詞が他のトークンによって分離されているかによって、2つの異なる層効果パターンと2つの異なるニューロンセットが相乗的合意に使用されることがわかった。
最後に、言語モデルの行動分析が、構文情報に対するマスキング言語モデルの感度を過小評価している可能性が示唆された。
関連論文リスト
- Modeling language contact with the Iterated Learning Model [0.0]
反復学習モデルは言語変化のエージェントベースモデルである。
最近導入された反復学習モデルであるSemi-Supervised ILMは、言語接触をシミュレートするために使われている。
論文 参考訳(メタデータ) (2024-06-11T01:43:23Z) - Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文 参考訳(メタデータ) (2022-10-20T22:23:27Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Cross-Linguistic Syntactic Evaluation of Word Prediction Models [25.39896327641704]
本稿では,ニューラルワード予測モデルの文法学習能力が言語によってどう異なるかを検討する。
CLAMSには、英語、フランス語、ドイツ語、ヘブライ語、ロシア語のサブバーブ協定の課題セットが含まれている。
CLAMSを用いてLSTM言語モデルと単言語および多言語BERTの評価を行う。
論文 参考訳(メタデータ) (2020-05-01T02:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。