論文の概要: On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons
- arxiv url: http://arxiv.org/abs/2404.02431v1
- Date: Wed, 3 Apr 2024 03:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:39:40.485010
- Title: On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons
- Title(参考訳): デコーダに基づく事前学習型言語モデルの多言語能力について:言語特異的ニューロンの探索と制御
- Authors: Takeshi Kojima, Itsuki Okimura, Yusuke Iwasawa, Hitomi Yanaka, Yutaka Matsuo,
- Abstract要約: 多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析
言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。
推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
- 参考スコア(独自算出の注目度): 37.32174349956148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current decoder-based pre-trained language models (PLMs) successfully demonstrate multilingual capabilities. However, it is unclear how these models handle multilingualism. We analyze the neuron-level internal behavior of multilingual decoder-based PLMs, Specifically examining the existence of neurons that fire ``uniquely for each language'' within decoder-only multilingual PLMs. We analyze six languages: English, German, French, Spanish, Chinese, and Japanese, and show that language-specific neurons are unique, with a slight overlap (< 5%) between languages. These neurons are mainly distributed in the models' first and last few layers. This trend remains consistent across languages and models. Additionally, we tamper with less than 1% of the total neurons in each model during inference and demonstrate that tampering with a few language-specific neurons drastically changes the probability of target language occurrence in text generation.
- Abstract(参考訳): 現在のデコーダベースの事前学習言語モデル(PLM)は、多言語機能の実現に成功している。
しかし、これらのモデルがどのように多言語性を扱うのかは定かではない。
多言語デコーダを用いたPLMのニューロンレベルの内部挙動を解析し、デコーダのみの多言語PLM内で「各言語に不規則に」発火するニューロンの存在について検討した。
我々は、英語、ドイツ語、フランス語、スペイン語、中国語、日本語の6つの言語を分析し、言語固有のニューロンがユニークであることを示し、言語間でわずかに重複している(5%)。
これらのニューロンは主にモデルの最初の層と最後の層に分布する。
この傾向は言語やモデル間で一貫している。
さらに、各モデルにおいて、推論中に全ニューロンの1%未満を改ざんし、少数の言語固有のニューロンとの改ざんが、テキスト生成におけるターゲット言語発生の確率を大幅に変化させることを示した。
関連論文リスト
- Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models [28.036233760742125]
我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
論文 参考訳(メタデータ) (2022-10-25T20:43:36Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Importance-based Neuron Allocation for Multilingual Neural Machine
Translation [27.65375150324557]
本稿では,言語間の重要性に基づいて,モデルニューロンを汎用と言語固有の部分に分割することを提案する。
一般的な部分は、一般的な知識を保存し、すべての言語の翻訳に参加する責任がある。
言語固有の部分は、言語固有の知識を保持し、特定の言語の翻訳に参加する責任がある。
論文 参考訳(メタデータ) (2021-07-14T09:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。