論文の概要: MC^2: A Multilingual Corpus of Minority Languages in China
- arxiv url: http://arxiv.org/abs/2311.08348v1
- Date: Tue, 14 Nov 2023 17:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:57:55.621878
- Title: MC^2: A Multilingual Corpus of Minority Languages in China
- Title(参考訳): MC^2:中国における少数言語多言語コーパス
- Authors: Chen Zhang, Mingxu Tao, Quzhe Huang, Jiuheng Lin, Zhibin Chen, Yansong
Feng
- Abstract要約: 我々は,中国最大のオープンソースコーパスであるマイノリティ言語多言語コーパスMC2を紹介する。
アラビア文字ではチベット語、ウイグル語、カザフ語、モンゴル文字ではモンゴル語である。
- 参考スコア(独自算出の注目度): 35.05335554561055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale corpora play a vital role in the construction of large language
models (LLMs). However, existing LLMs exhibit limited abilities in
understanding low-resource languages, including the minority languages in
China, due to a lack of training data. To improve the accessibility of these
languages, we present MC^2, a Multilingual Corpus of Minority Languages in
China, which is the largest open-source corpus so far. It encompasses four
underrepresented languages, i.e., Tibetan, Uyghur, Kazakh in the Kazakh Arabic
script, and Mongolian in the traditional Mongolian script. Notably, two writing
systems in MC^2 are long neglected in previous corpora. As we identify serious
contamination in the low-resource language split in the existing multilingual
corpora, we propose a quality-centric solution for collecting MC^2,
prioritizing quality and accuracy while enhancing representativeness and
diversity. By in-depth analysis, we demonstrate the new research challenges
MC^2 brings, such as long-text modeling and multiplicity of writing systems. We
hope MC^2 can help enhance the equity of the underrepresented languages in
China and provide a reliable data foundation for further research on
low-resource languages.
- Abstract(参考訳): 大規模コーパスは、大規模言語モデル(LLM)の構築において重要な役割を果たす。
しかし、既存のllmは、トレーニングデータの欠如により、中国の少数言語を含む低リソース言語を理解する能力が限られている。
これらの言語のアクセシビリティを向上させるため,中国最大のオープンソースコーパスである,マイノリティ言語多言語コーパスMC^2を提案する。
カザフ語ではチベット語、ウイグル語、カザフ語ではカザフ語、モンゴル語では伝統的なモンゴル文字である。
特に、MC^2の2つの書き込み系は、以前のコーパスで長い間無視されている。
既存の多言語コーパスにおける低リソース言語分割の深刻な汚染を識別するため,代表性と多様性を高めつつ,品質と正確性を優先してmc^2を収集する品質中心のソリューションを提案する。
詳細な分析により,mc^2がもたらした長文モデリングや書き込みシステムの多重性など,新たな研究課題を実証する。
MC^2は、中国における最下級言語の価値を高め、低リソース言語に関するさらなる研究のための信頼性のあるデータ基盤を提供することを期待している。
関連論文リスト
- A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained
Language Model [37.69464822182714]
ほとんどの生物医学的な事前訓練された言語モデルはモノリンガルであり、言語間要求の増大に対処できない。
本稿では,多言語事前学習型XLM-Rを知識アンコール手法を用いて生物医学領域に変換するKBioXLMというモデルを提案する。
論文 参考訳(メタデータ) (2023-11-20T07:02:35Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - CINO: A Chinese Minority Pre-trained Language Model [30.447739293695026]
中国語マイノリティ事前学習言語モデル(CINO)を提案する。
標準中国語、カントン諸語、その他の6つの少数言語をカバーしている。
論文 参考訳(メタデータ) (2022-02-28T06:02:06Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。