論文の概要: Linguistic Entity Masking to Improve Cross-Lingual Representation of Multilingual Language Models for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2501.05700v1
- Date: Fri, 10 Jan 2025 04:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:43.967015
- Title: Linguistic Entity Masking to Improve Cross-Lingual Representation of Multilingual Language Models for Low-Resource Languages
- Title(参考訳): 低リソース言語用多言語言語モデルの言語間表現改善のための言語エンティティマスキング
- Authors: Aloka Fernando, Surangika Ranathunga,
- Abstract要約: 本稿では,新しいマスキング戦略であるLingguistic Entity Masking (LEM)を導入し,継続事前学習のステップで使用する。
LEMは、動詞、名詞、名前付き実体にマスキングを制限し、文中に高い優位性を保持する。
我々は3つの下流タスク,すなわちbitext mining, parallel data curation, code-mixed sentiment analysis を用いて LEM の有効性を評価する。
- 参考スコア(独自算出の注目度): 1.131401554081614
- License:
- Abstract: Multilingual Pre-trained Language models (multiPLMs), trained on the Masked Language Modelling (MLM) objective are commonly being used for cross-lingual tasks such as bitext mining. However, the performance of these models is still suboptimal for low-resource languages (LRLs). To improve the language representation of a given multiPLM, it is possible to further pre-train it. This is known as continual pre-training. Previous research has shown that continual pre-training with MLM and subsequently with Translation Language Modelling (TLM) improves the cross-lingual representation of multiPLMs. However, during masking, both MLM and TLM give equal weight to all tokens in the input sequence, irrespective of the linguistic properties of the tokens. In this paper, we introduce a novel masking strategy, Linguistic Entity Masking (LEM) to be used in the continual pre-training step to further improve the cross-lingual representations of existing multiPLMs. In contrast to MLM and TLM, LEM limits masking to the linguistic entity types nouns, verbs and named entities, which hold a higher prominence in a sentence. Secondly, we limit masking to a single token within the linguistic entity span thus keeping more context, whereas, in MLM and TLM, tokens are masked randomly. We evaluate the effectiveness of LEM using three downstream tasks, namely bitext mining, parallel data curation and code-mixed sentiment analysis using three low-resource language pairs English-Sinhala, English-Tamil, and Sinhala-Tamil. Experiment results show that continually pre-training a multiPLM with LEM outperforms a multiPLM continually pre-trained with MLM+TLM for all three tasks.
- Abstract(参考訳): Masked Language Modelling (MLM) の目的に基づいて訓練されたマルチ言語事前学習言語モデル (multiPLMs) は、一般にbitext mining のような言語横断的なタスクに使用されている。
しかし、これらのモデルの性能は低リソース言語(LRL)にはまだ最適である。
与えられたマルチPLMの言語表現を改善するために、さらに事前訓練を行うことが可能である。
これは連続的な事前訓練として知られている。
これまでの研究では、MLMによる継続事前学習と翻訳言語モデリング(TLM)が多言語間の多言語表現を改善することが示されている。
しかし、マスキングの間、MLM と TLM はどちらも、トークンの言語的性質に関係なく、入力シーケンス内の全てのトークンに等しい重みを与える。
本稿では,既存のマルチPLMの言語間表現をさらに改善するために,継続事前学習に使用される新しいマスキング戦略であるLingguistic Entity Masking(LEM)を紹介する。
MLM や TLM とは対照的に、LEM は名詞、動詞、名前付きエンティティにマスキングを制限する。
第二に、マスキングは言語実体の1つのトークンに制限されるため、より多くのコンテキストを維持することができるが、MLMやTLMではトークンはランダムにマスクされる。
我々は,3つの低リソース言語対であるイングリッシュ・シンハラ,イングリッシュ・タミル,シンハラ・タミルの3つのタスク,すなわちbitextマイニング,並列データキュレーション,コード混合感情分析を用いて,LEMの有効性を評価する。
実験結果から,LEMによるマルチPLMの事前学習は,MLM+TLMを併用したマルチPLMよりも優れていた。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - Do Multi-Lingual Pre-trained Language Models Reveal Consistent Token
Attributions in Different Languages? [42.47155960879255]
多言語 PLM が異なる言語で一貫したトークン属性を示すかどうかは不明である。
3つの下流タスクにおける広範囲な実験により、多言語 PLM は多言語同義語に大きく異なる属性を割り当てることを示した。
スペイン語は、PLMのトレーニングに使用される際、異なる言語で最も一貫性のあるトークン属性を達成している。
論文 参考訳(メタデータ) (2021-12-23T04:40:06Z) - A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。
本報告では,MLLMに関する研究分野について概説する。
論文 参考訳(メタデータ) (2021-07-01T18:01:46Z) - Universal Sentence Representation Learning with Conditional Masked
Language Model [7.334766841801749]
文表現を効果的に学習するための条件付きマスク言語モデリング(M)を提案する。
我々の英語CMLMモデルは,SentEvalの最先端性能を実現する。
完全に教師なしの学習方法として、CMLMは幅広い言語やドメインに便利に拡張できます。
論文 参考訳(メタデータ) (2020-12-28T18:06:37Z) - DICT-MLM: Improved Multilingual Pre-Training using Bilingual
Dictionaries [8.83363871195679]
主要な言語学習目的としてのマスケプド・モデリング(MLM)の目的。
DICT-MLMは、オリジナルのマスキングされた単語だけでなく、言語間の同義語も予測できるようにモデルにインセンティブを与える。
30以上の言語にまたがる複数の下流タスクに関する実証分析により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-23T17:53:11Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。