論文の概要: Preparing the Vuk'uzenzele and ZA-gov-multilingual South African
multilingual corpora
- arxiv url: http://arxiv.org/abs/2303.03750v1
- Date: Tue, 7 Mar 2023 09:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:59:39.427811
- Title: Preparing the Vuk'uzenzele and ZA-gov-multilingual South African
multilingual corpora
- Title(参考訳): Vuk'uzenzeleとZA-gov-multilingual South African multilingual corporaの調製
- Authors: Richard Lastrucci, Isheanesu Dzingirai, Jenalea Rajab, Andani
Madodonga, Matimba Shingange, Daniel Njini, Vukosi Marivate
- Abstract要約: 本稿では,南アフリカ諸言語における多言語政府をテーマとしたコーパスについて紹介する。
コーパスは南アフリカ政府の新聞(Vuk'uzenzele)と南アフリカ政府の演説(ZA-gov-multilingual)によって収集された。
我々はLanguage-Agnostic Sentence Representation (LASER) 埋め込みを用いたニューラルマシン翻訳(NMT)タスクのための並列文コーパスを作成する。
- 参考スコア(独自算出の注目度): 1.1938984189527917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces two multilingual government themed corpora in various
South African languages. The corpora were collected by gathering the South
African Government newspaper (Vuk'uzenzele), as well as South African
government speeches (ZA-gov-multilingual), that are translated into all 11
South African official languages. The corpora can be used for a myriad of
downstream NLP tasks. The corpora were created to allow researchers to study
the language used in South African government publications, with a focus on
understanding how South African government officials communicate with their
constituents.
In this paper we highlight the process of gathering, cleaning and making
available the corpora. We create parallel sentence corpora for Neural Machine
Translation (NMT) tasks using Language-Agnostic Sentence Representations
(LASER) embeddings. With these aligned sentences we then provide NMT benchmarks
for 9 indigenous languages by fine-tuning a massively multilingual pre-trained
language model. \end{abstra
- Abstract(参考訳): 本稿では,南アフリカ諸言語における多言語政府のテーマコーパスについて紹介する。
コーポラは南アフリカ政府の新聞(Vuk'uzenzele)と南アフリカ政府の演説(ZA-gov-multilingual)を集めて収集され、南アフリカの公用語の全てに翻訳された。
コーパスは、下流の無数のNLPタスクに使用できる。
コーポラは南アフリカ政府の出版物で使われている言語を研究者が研究できるように作られ、南アフリカ政府の役人が構成員とどのようにコミュニケーションするかを理解することに焦点を当てた。
本稿では,コーパスの収集,清掃,利用可能化のプロセスを強調する。
我々はLanguage-Agnostic Sentence Representation (LASER) を用いたニューラルマシン翻訳(NMT)タスクのための並列文コーパスを作成する。
これらの整列文を用いて、我々は、非常に多言語で事前訓練された言語モデルを微調整することで、9つのネイティブ言語に対するNMTベンチマークを提供する。
\end{abstra
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - University of Cape Town's WMT22 System: Multilingual Machine Translation
for Southern African Languages [6.1394388820078625]
我々のシステムは、英語と8つの南アフリカ語/南アフリカ語の間で翻訳される単一の多言語翻訳モデルである。
低リソース機械翻訳(MT)に適した手法として,重なり合うBPE,バックトランスレーション,合成トレーニングデータ生成,トレーニング中の翻訳方向の追加などを用いた。
以上の結果から,特にバイリンガル学習データが少ない方向,あるいは全くない方向において,これらの手法の価値が示唆された。
論文 参考訳(メタデータ) (2022-10-21T06:31:24Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - Towards a parallel corpus of Portuguese and the Bantu language Emakhuwa
of Mozambique [4.060731229044571]
モザンビーク語で話されているエマクフワ語は、ほとんどのアフリカ語言語の低リソース言語である。
本稿では,Emakhuwa-Portugueseパラレルコーパスの作成について述べる。
データセットには47,415文のペアがあり、エマクワの699,976ワードトークンとポルトガル語の877,595ワードトークンが含まれている。
論文 参考訳(メタデータ) (2021-04-12T18:31:56Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Neural Machine Translation for South Africa's Official Languages [0.01631115063641726]
NMTベンチマークBLEUスコアを英語と南アフリカで残る10の公用語で作成します。
本稿では,NMTベンチマークBLEUスコアを英語と南アフリカにおける10の公用語間で作成することにより,このギャップに対処することを目的とする。
論文 参考訳(メタデータ) (2020-05-08T08:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。