論文の概要: Examining Modularity in Multilingual LMs via Language-Specialized
Subnetworks
- arxiv url: http://arxiv.org/abs/2311.08273v1
- Date: Tue, 14 Nov 2023 16:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:24:19.283503
- Title: Examining Modularity in Multilingual LMs via Language-Specialized
Subnetworks
- Title(参考訳): 言語特化サブネットによる多言語LMのモジュール性の検討
- Authors: Rochelle Choenni, Ekaterina Shutova, Dan Garrette
- Abstract要約: 本研究では,言語のモジュラリティが,特別なモジュラリティ介入を伴わないモデルで自然に発生する程度について検討する。
我々は,言語特化作業が自然に発生すること,モジュール性の向上よりもSFTが,Attributionworksの言語特化を減らし,より言語横断的な共有が期待できることを示す。
- 参考スコア(独自算出の注目度): 15.758213562260913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has proposed explicitly inducing language-wise modularity in
multilingual LMs via sparse fine-tuning (SFT) on per-language subnetworks as a
means of better guiding cross-lingual sharing. In this work, we investigate (1)
the degree to which language-wise modularity naturally arises within models
with no special modularity interventions, and (2) how cross-lingual sharing and
interference differ between such models and those with explicit SFT-guided
subnetwork modularity. To quantify language specialization and cross-lingual
interaction, we use a Training Data Attribution method that estimates the
degree to which a model's predictions are influenced by in-language or
cross-language training examples. Our results show that language-specialized
subnetworks do naturally arise, and that SFT, rather than always increasing
modularity, can decrease language specialization of subnetworks in favor of
more cross-lingual sharing.
- Abstract(参考訳): 最近の研究は、多言語LMにおいて言語間の共有をより良く導く手段として、言語ごとのサブネット上でのスパース微調整(SFT)を通じて言語ワイドなモジュラリティを明示的に誘導することを提案した。
本研究は,(1)特別なモジュラリティの介入を伴わないモデルにおいて言語間モジュラリティが自然発生する程度,(2)これらのモデルと明示的なsft誘導サブネットワークモジュラリティモデルとの言語間共有と干渉の差異について検討する。
言語特殊化と言語間相互作用を定量化するために,モデルの予測が言語内あるいは言語間トレーニングの例に影響される程度を推定するトレーニングデータ属性法を用いる。
以上の結果から,言語特化サブネットワークは自然発生し,モジュール性が常に向上する代わりに,サブネットワークの言語特化を減らし,より言語横断的な共有が期待できることがわかった。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Discovering Language-neutral Sub-networks in Multilingual Language
Models [15.94622051535847]
多言語モデルの言語中立性は、これらのモデルの言語エンコードサブネットワーク間の重なり合いの関数である。
mBERTを基礎として、様々な言語やタスクに個別に最適化されたサブネットワークを見つけるために、宝くじの仮説を用いる。
我々は,mBERTは言語ニュートラルなサブネットワークと,複数の補助言語固有のサブネットワークで構成されていると結論付けた。
論文 参考訳(メタデータ) (2022-05-25T11:35:41Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - Adaptive Sparse Transformer for Multilingual Translation [18.017674093519332]
多言語モデルの既知の課題は、否定的な言語干渉です。
多言語モデリングのための適応的でスパースなアーキテクチャを提案する。
我々のモデルは、推論コストを増加させることなく、翻訳品質の点で強力なベースラインを上回る。
論文 参考訳(メタデータ) (2021-04-15T10:31:07Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。