論文の概要: Towards a parallel corpus of Portuguese and the Bantu language Emakhuwa
of Mozambique
- arxiv url: http://arxiv.org/abs/2104.05753v1
- Date: Mon, 12 Apr 2021 18:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 04:45:09.077650
- Title: Towards a parallel corpus of Portuguese and the Bantu language Emakhuwa
of Mozambique
- Title(参考訳): ポルトガル語とモザンビークのバントゥー語エマクワ語の並列コーパスに向けて
- Authors: Felermino D. M. A. Ali, Andrew Caines, Jaimito L. A. Malavi
- Abstract要約: モザンビーク語で話されているエマクフワ語は、ほとんどのアフリカ語言語の低リソース言語である。
本稿では,Emakhuwa-Portugueseパラレルコーパスの作成について述べる。
データセットには47,415文のペアがあり、エマクワの699,976ワードトークンとポルトガル語の877,595ワードトークンが含まれている。
- 参考スコア(独自算出の注目度): 4.060731229044571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Major advancement in the performance of machine translation models has been
made possible in part thanks to the availability of large-scale parallel
corpora. But for most languages in the world, the existence of such corpora is
rare. Emakhuwa, a language spoken in Mozambique, is like most African languages
low-resource in NLP terms. It lacks both computational and linguistic resources
and, to the best of our knowledge, few parallel corpora including Emakhuwa
already exist. In this paper we describe the creation of the
Emakhuwa-Portuguese parallel corpus, which is a collection of texts from the
Jehovah's Witness website and a variety of other sources including the African
Story Book website, the Universal Declaration of Human Rights and Mozambican
legal documents. The dataset contains 47,415 sentence pairs, amounting to
699,976 word tokens of Emakhuwa and 877,595 word tokens in Portuguese. After
normalization processes which remain to be completed, the corpus will be made
freely available for research use.
- Abstract(参考訳): 大規模な並列コーパスが利用可能になったことにより、機械翻訳モデルの性能が大幅に向上した。
しかし、世界中のほとんどの言語では、そのようなコーパスの存在は稀である。
モザンビークで話されているエマクフワ語は、NLPの用語ではほとんどのアフリカの言語と同様に低リソースである。
計算と言語の両方のリソースが不足しており、私たちの知る限り、emakhuwaを含む並列コーパスはほとんど存在しない。
本稿では,ジェホバのウィットネスのウェブサイトやアフリカ・ストーリーブックのウェブサイト,人権の普遍宣言,モザンビークの法的文書など,さまざまな資料から得られたテキストの集合体であるエマフワ・ポルトガルの平行コーパスの作成について述べる。
データセットには47,415文のペアがあり、エマクワの699,976ワードトークンとポルトガル語の877,595ワードトークンが含まれている。
完成予定の正常化プロセスの後、コーパスは自由に研究用として利用できるようになる。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Feriji: A French-Zarma Parallel Corpus, Glossary & Translator [3.3073775218038883]
本稿では,機械翻訳用に設計された最初のロバストなフレンチ・ザーマ並列コーパスと用語集であるFerijiを紹介する。
我々はデータセット上で3つの大きな言語モデルを微調整し、最高の性能モデルでBLEUスコア30.06を得る。
論文 参考訳(メタデータ) (2024-06-09T19:08:33Z) - EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Preparing the Vuk'uzenzele and ZA-gov-multilingual South African
multilingual corpora [1.1938984189527917]
本稿では,南アフリカ諸言語における多言語政府をテーマとしたコーパスについて紹介する。
コーパスは南アフリカ政府の新聞(Vuk'uzenzele)と南アフリカ政府の演説(ZA-gov-multilingual)によって収集された。
論文 参考訳(メタデータ) (2023-03-07T09:20:09Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform [0.0]
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
論文 参考訳(メタデータ) (2021-02-15T13:22:30Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。