論文の概要: MuRIL: Multilingual Representations for Indian Languages
- arxiv url: http://arxiv.org/abs/2103.10730v1
- Date: Fri, 19 Mar 2021 11:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:36:51.989722
- Title: MuRIL: Multilingual Representations for Indian Languages
- Title(参考訳): MuRIL: インド語の多言語表現
- Authors: Simran Khanuja, Diksha Bansal, Sarvesh Mehtani, Savya Khosla, Atreyee
Dey, Balaji Gopalan, Dilip Kumar Margam, Pooja Aggarwal, Rajiv Teja Nagipogu,
Shachi Dave, Shruti Gupta, Subhash Chandra Bose Gali, Vish Subramanian,
Partha Talukdar
- Abstract要約: インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。
それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。
IN言語に特化した多言語言語モデルであるMuRILを提案します。
- 参考スコア(独自算出の注目度): 3.529875637780551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: India is a multilingual society with 1369 rationalized languages and dialects
being spoken across the country (INDIA, 2011). Of these, the 22 scheduled
languages have a staggering total of 1.17 billion speakers and 121 languages
have more than 10,000 speakers (INDIA, 2011). India also has the second largest
(and an ever growing) digital footprint (Statista, 2020). Despite this, today's
state-of-the-art multilingual systems perform suboptimally on Indian (IN)
languages. This can be explained by the fact that multilingual language models
(LMs) are often trained on 100+ languages together, leading to a small
representation of IN languages in their vocabulary and training data.
Multilingual LMs are substantially less effective in resource-lean scenarios
(Wu and Dredze, 2020; Lauscher et al., 2020), as limited data doesn't help
capture the various nuances of a language. One also commonly observes IN
language text transliterated to Latin or code-mixed with English, especially in
informal settings (for example, on social media platforms) (Rijhwani et al.,
2017). This phenomenon is not adequately handled by current state-of-the-art
multilingual LMs. To address the aforementioned gaps, we propose MuRIL, a
multilingual LM specifically built for IN languages. MuRIL is trained on
significantly large amounts of IN text corpora only. We explicitly augment
monolingual text corpora with both translated and transliterated document
pairs, that serve as supervised cross-lingual signals in training. MuRIL
significantly outperforms multilingual BERT (mBERT) on all tasks in the
challenging cross-lingual XTREME benchmark (Hu et al., 2020). We also present
results on transliterated (native to Latin script) test sets of the chosen
datasets and demonstrate the efficacy of MuRIL in handling transliterated data.
- Abstract(参考訳): インドは多言語社会であり、1369の合理化言語と方言が全国で話されている(INDIA, 2011)。
これらのうち22の予定言語は、合計17億人の話者と121の言語が10,000人以上の話者を抱えている(india, 2011)。
インドはまた、デジタル・フットプリント(statista、2020年)で2番目に大きい(かつ成長している)。
それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で亜最適に機能する。
これは多言語言語モデル(lms)が100以上の言語で一緒に訓練されることがしばしばあり、語彙や訓練データのイン言語表現が小さいことから説明できる。
多言語lmsはリソース指向のシナリオ(wu, dredze, 2020; lauscher et al., 2020)では、限られたデータが言語のさまざまなニュアンスを捉えるのに役立ちません。
また、ラテン語に翻訳された言語テキストや、特に非公式の設定(ソーシャルメディアプラットフォームなど)で英語と混ざったコードでもよく観察される(rijhwani et al., 2017)。
この現象は、現在の最先端多言語LMでは適切に扱えない。
上記のギャップに対処するため,IN言語に特化した多言語LMであるMuRILを提案する。
MuRILは相当量のINテキストコーパスで訓練されている。
学習中に教師付き言語間信号として機能する翻訳文対と翻訳文対の両方を用いて,単言語テキストコーパスを明示的に拡張する。
MuRILは、言語横断XTREMEベンチマーク(Hu et al., 2020)において、全てのタスクにおいて多言語BERT(mBERT)を著しく上回っている。
また、選択したデータセットのトランスリテラル化(ネイティブからラテン文字)テストセットについて結果を示し、トランスリテラルデータの処理における MuRIL の有効性を示す。
関連論文リスト
- Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Multilingual Language Model Adaptive Fine-Tuning: A Study on African
Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。
多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。
当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文 参考訳(メタデータ) (2022-04-13T16:13:49Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。