論文の概要: Igbo-English Machine Translation: An Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2004.00648v1
- Date: Wed, 1 Apr 2020 18:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 17:51:19.900867
- Title: Igbo-English Machine Translation: An Evaluation Benchmark
- Title(参考訳): Igbo-English Machine Translation: 評価ベンチマーク
- Authors: Ignatius Ezeani, Paul Rayson, Ikechukwu Onyenwe, Chinedu Uchechukwu,
Mark Hepple
- Abstract要約: 我々はIgboの標準的な機械翻訳ベンチマークデータセットを構築する取り組みについて論じる。
イグボ語は全世界で5000万人以上が話しており、話者の50%以上がナイジェリア南東部に住んでいる。
- 参考スコア(独自算出の注目度): 3.0151383439513753
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Although researchers and practitioners are pushing the boundaries and
enhancing the capacities of NLP tools and methods, works on African languages
are lagging. A lot of focus on well resourced languages such as English,
Japanese, German, French, Russian, Mandarin Chinese etc. Over 97% of the
world's 7000 languages, including African languages, are low resourced for NLP
i.e. they have little or no data, tools, and techniques for NLP research. For
instance, only 5 out of 2965, 0.19% authors of full text papers in the ACL
Anthology extracted from the 5 major conferences in 2018 ACL, NAACL, EMNLP,
COLING and CoNLL, are affiliated to African institutions. In this work, we
discuss our effort toward building a standard machine translation benchmark
dataset for Igbo, one of the 3 major Nigerian languages. Igbo is spoken by more
than 50 million people globally with over 50% of the speakers are in
southeastern Nigeria. Igbo is low resourced although there have been some
efforts toward developing IgboNLP such as part of speech tagging and diacritic
restoration
- Abstract(参考訳): 研究者や実践者は、NLPツールや手法の限界を押し上げ、能力を高めているが、アフリカ言語の研究は遅れている。
英語、日本語、ドイツ語、フランス語、ロシア語、中国語など、リソースの豊富な言語に重点を置いている。
世界の7000言語のうち、アフリカ語を含む97%以上の言語は、NLPのリソースが乏しく、つまり、NLP研究のためのデータ、ツール、技術がほとんど、あるいは全くない。
例えば、2018年のACL、NAACL、EMNLP、COling、CoNLLの5つの主要なカンファレンスから抽出されたACLアンソロジーの全文の著者のうち、2965人中5人、0.19%のみがアフリカの機関に属している。
本稿では,ナイジェリアの3大言語のひとつであるIgboの標準機械翻訳ベンチマークデータセットの構築に向けた取り組みについて論じる。
イグボ語は全世界で5000万人以上が話しており、話者の50%以上がナイジェリア南東部に住んでいる。
Igboは低資源だが、音声タグ付けやダイアクリティカル修復など、IgboNLPの開発に向けた取り組みがいくつかある。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - CCAE: A Corpus of Chinese-based Asian Englishes [8.563253881619124]
本論文は,世界英語のパラダイムにおけるNLP技術の活用に向けた数少ない試みの1つである。
本報告では,中国系アジア英語6品種からなるコーパス,中国系アジア英語コーパスの概要について述べる。
論文 参考訳(メタデータ) (2023-10-09T03:34:15Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Towards End-to-End Training of Automatic Speech Recognition for Nigerian
Pidgin [0.0]
ナイジェリアのピジンは西アフリカで最も人気のある言語の一つである。
我々はナイジェリアのピジンについて最初のパラレル(音声からテキスト)データを提示する。
また,この言語を用いた最初のエンドツーエンド音声認識システムを訓練した。
論文 参考訳(メタデータ) (2020-10-21T16:32:58Z) - Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T18:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。