Fugu-MT 論文翻訳(概要): Lifting the Curse of Multilinguality by Pre-training Modular Transformers

論文の概要: Lifting the Curse of Multilinguality by Pre-training Modular Transformers

arxiv url: http://arxiv.org/abs/2205.06266v1
Date: Thu, 12 May 2022 17:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-13 13:47:29.486443
Title: Lifting the Curse of Multilinguality by Pre-training Modular Transformers
Title（参考訳）: モジュール変換器の事前学習による多言語性曲線の解離
Authors: Jonas Pfeiffer, Naman Goyal, Xi Victoria Lin, Xian Li, James Cross, Sebastian Riedel, Mikel Artetxe
Abstract要約: 多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
参考スコア（独自算出の注目度）: 72.46919537293068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual pre-trained models are known to suffer from the curse of multilinguality, which causes per-language performance to drop as they cover more languages. We address this issue by introducing language-specific modules, which allows us to grow the total capacity of the model, while keeping the total number of trainable parameters per language constant. In contrast with prior work that learns language-specific components post-hoc, we pre-train the modules of our Cross-lingual Modular (X-Mod) models from the start. Our experiments on natural language inference, named entity recognition and question answering show that our approach not only mitigates the negative interference between languages, but also enables positive transfer, resulting in improved monolingual and cross-lingual performance. Furthermore, our approach enables adding languages post-hoc with no measurable drop in performance, no longer limiting the model usage to the set of pre-trained languages.
Abstract（参考訳）: 多言語事前学習モデルは多言語間のパフォーマンスを低下させる多言語性の呪いに苦しむことが知られている。言語固有のモジュールを導入することでこの問題に対処し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できる。言語固有のコンポーネントをポストホックで学習する以前の作業とは対照的に、私たちは最初から言語間モジュール(X-Mod)モデルのモジュールを事前訓練しています。自然言語推論,名前付きエンティティ認識,質問応答実験により,言語間の負の干渉を緩和するだけでなく,肯定的な伝達が可能となり,モノリンガルとクロスランガルのパフォーマンスが向上することが示された。さらに,本手法では,事前学習された言語群にモデルの使用を制限せず,性能の計測可能な低下を伴わない言語の追加が可能となった。

関連論文リスト

Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-07-02T12:17:55Z)
Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文参考訳（メタデータ） (2024-08-26T16:29:13Z)
LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文参考訳（メタデータ） (2024-05-13T13:41:59Z)
No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文参考訳（メタデータ） (2024-04-24T08:52:40Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)
Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文参考訳（メタデータ） (2021-10-20T10:38:57Z)
On the ability of monolingual models to learn language-agnostic representations [2.604227467422371]
異なる言語で事前訓練および微調整された単言語モデルが競合性能を実現することを示す。例えば、ドイツ語やポルトガル語のような遠方の言語で事前訓練されたモデルは、英語のタスクでも同様に機能する。
論文参考訳（メタデータ） (2021-09-04T22:09:44Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。