論文の概要: On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment
- arxiv url: http://arxiv.org/abs/2010.03017v1
- Date: Tue, 6 Oct 2020 20:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:27:27.405012
- Title: On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment
- Title(参考訳): 多言語モデルにおける否定的干渉について:発見とメタラーニング
- Authors: Zirui Wang, Zachary C. Lipton, Yulia Tsvetkov
- Abstract要約: 従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
- 参考スコア(独自算出の注目度): 59.995385574274785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern multilingual models are trained on concatenated text from multiple
languages in hopes of conferring benefits to each (positive transfer), with the
most pronounced benefits accruing to low-resource languages. However, recent
work has shown that this approach can degrade performance on high-resource
languages, a phenomenon known as negative interference. In this paper, we
present the first systematic study of negative interference. We show that,
contrary to previous belief, negative interference also impacts low-resource
languages. While parameters are maximally shared to learn language-universal
structures, we demonstrate that language-specific parameters do exist in
multilingual models and they are a potential cause of negative interference.
Motivated by these observations, we also present a meta-learning algorithm that
obtains better cross-lingual transferability and alleviates negative
interference, by adding language-specific layers as meta-parameters and
training them in a manner that explicitly improves shared layers'
generalization on all languages. Overall, our results show that negative
interference is more common than previously known, suggesting new directions
for improving multilingual representations.
- Abstract(参考訳): 現代の多言語モデルは、複数の言語からの連結されたテキストに基づいて訓練され、各言語に利益(肯定的な転送)を与える。
しかし、近年の研究により、このアプローチは負の干渉として知られる高リソース言語の性能を低下させることができることが示されている。
本稿では,負の干渉に関する最初の体系的研究を行う。
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
パラメータは言語共通構造を学ぶために最大に共有されるが、言語固有のパラメータは多言語モデルに存在し、負の干渉の原因となる可能性があることを実証する。
これらの観察に動機づけられたメタラーニングアルゴリズムは、言語固有の層をメタパラメータとして追加し、すべての言語における共有レイヤーの一般化を明示的に改善するようにトレーニングすることで、言語間転送性の向上と負の干渉を軽減する。
以上の結果から,従来よりも負の干渉が一般的であることが示唆され,多言語表現を改善するための新たな方向性が示唆された。
関連論文リスト
- No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Understanding the effects of language-specific class imbalance in
multilingual fine-tuning [0.0]
変換器をベースとしたLarge Language Model (LLM) を不均衡なデータセットで微調整すると性能が低下することを示す。
各言語ごとにクラス重みを別々に計算することで、従来のクラス重み付けアプローチを不均衡に修正する。
論文 参考訳(メタデータ) (2024-02-20T13:59:12Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Leveraging Multi-lingual Positive Instances in Contrastive Learning to
Improve Sentence Embedding [17.12010497289781]
複数の正の活用は多言語文の埋め込みに考慮すべきである,と我々は主張する。
本稿では,多言語文埋め込みの学習を改善するために,MPCLという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T08:54:30Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - On the Language-specificity of Multilingual BERT and the Impact of
Fine-tuning [7.493779672689531]
multilingual BERT (mBERT) が獲得した知識は、言語固有のものと言語ニュートラルな2つのコンポーネントを持っている。
本稿では,2つのタスクの微調整の文脈において,それらの関係を解析する。
論文 参考訳(メタデータ) (2021-09-14T19:28:31Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Adaptive Sparse Transformer for Multilingual Translation [18.017674093519332]
多言語モデルの既知の課題は、否定的な言語干渉です。
多言語モデリングのための適応的でスパースなアーキテクチャを提案する。
我々のモデルは、推論コストを増加させることなく、翻訳品質の点で強力なベースラインを上回る。
論文 参考訳(メタデータ) (2021-04-15T10:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。