論文の概要: MC^2: A Multilingual Corpus of Minority Languages in China
- arxiv url: http://arxiv.org/abs/2311.08348v1
- Date: Tue, 14 Nov 2023 17:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:57:55.621878
- Title: MC^2: A Multilingual Corpus of Minority Languages in China
- Title(参考訳): MC^2:中国における少数言語多言語コーパス
- Authors: Chen Zhang, Mingxu Tao, Quzhe Huang, Jiuheng Lin, Zhibin Chen, Yansong
Feng
- Abstract要約: 我々は,中国最大のオープンソースコーパスであるマイノリティ言語多言語コーパスMC2を紹介する。
アラビア文字ではチベット語、ウイグル語、カザフ語、モンゴル文字ではモンゴル語である。
- 参考スコア(独自算出の注目度): 35.05335554561055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale corpora play a vital role in the construction of large language
models (LLMs). However, existing LLMs exhibit limited abilities in
understanding low-resource languages, including the minority languages in
China, due to a lack of training data. To improve the accessibility of these
languages, we present MC^2, a Multilingual Corpus of Minority Languages in
China, which is the largest open-source corpus so far. It encompasses four
underrepresented languages, i.e., Tibetan, Uyghur, Kazakh in the Kazakh Arabic
script, and Mongolian in the traditional Mongolian script. Notably, two writing
systems in MC^2 are long neglected in previous corpora. As we identify serious
contamination in the low-resource language split in the existing multilingual
corpora, we propose a quality-centric solution for collecting MC^2,
prioritizing quality and accuracy while enhancing representativeness and
diversity. By in-depth analysis, we demonstrate the new research challenges
MC^2 brings, such as long-text modeling and multiplicity of writing systems. We
hope MC^2 can help enhance the equity of the underrepresented languages in
China and provide a reliable data foundation for further research on
low-resource languages.
- Abstract(参考訳): 大規模コーパスは、大規模言語モデル(LLM)の構築において重要な役割を果たす。
しかし、既存のllmは、トレーニングデータの欠如により、中国の少数言語を含む低リソース言語を理解する能力が限られている。
これらの言語のアクセシビリティを向上させるため,中国最大のオープンソースコーパスである,マイノリティ言語多言語コーパスMC^2を提案する。
カザフ語ではチベット語、ウイグル語、カザフ語ではカザフ語、モンゴル語では伝統的なモンゴル文字である。
特に、MC^2の2つの書き込み系は、以前のコーパスで長い間無視されている。
既存の多言語コーパスにおける低リソース言語分割の深刻な汚染を識別するため,代表性と多様性を高めつつ,品質と正確性を優先してmc^2を収集する品質中心のソリューションを提案する。
詳細な分析により,mc^2がもたらした長文モデリングや書き込みシステムの多重性など,新たな研究課題を実証する。
MC^2は、中国における最下級言語の価値を高め、低リソース言語に関するさらなる研究のための信頼性のあるデータ基盤を提供することを期待している。
関連論文リスト
- TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。
TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。
また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文 参考訳(メタデータ) (2025-02-16T07:07:38Z) - Is It Navajo? Accurate Language Detection in Endangered Athabaskan Languages [34.78841410279943]
ナヴァホのような絶滅危惧言語は、現代の言語技術では著しく不足している。
本研究では、現在ネイティブアメリカン言語をサポートしていないGoogleの言語識別(LangID)ツールを評価する。
論文 参考訳(メタデータ) (2025-01-27T04:43:18Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。