論文の概要: Towards Neural Machine Translation for Edoid Languages
- arxiv url: http://arxiv.org/abs/2003.10704v1
- Date: Tue, 24 Mar 2020 07:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:58:48.056167
- Title: Towards Neural Machine Translation for Edoid Languages
- Title(参考訳): edid言語のためのニューラルマシン翻訳に向けて
- Authors: Iroro Orife
- Abstract要約: 多くのナイジェリアの言語は、現代の社会における彼らの以前の名声と目的を、英語とナイジェリアのピジンに放棄した。
本研究は,南ナイジェリアの江戸語族におけるニューラルマシン翻訳の実現可能性について考察する。
- 参考スコア(独自算出の注目度): 2.144787054581292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many Nigerian languages have relinquished their previous prestige and purpose
in modern society to English and Nigerian Pidgin. For the millions of L1
speakers of indigenous languages, there are inequalities that manifest
themselves as unequal access to information, communications, health care,
security as well as attenuated participation in political and civic life. To
minimize exclusion and promote socio-linguistic and economic empowerment, this
work explores the feasibility of Neural Machine Translation (NMT) for the Edoid
language family of Southern Nigeria. Using the new JW300 public dataset, we
trained and evaluated baseline translation models for four widely spoken
languages in this group: \`Ed\'o, \'Es\'an, Urhobo and Isoko. Trained models,
code and datasets have been open-sourced to advance future research efforts on
Edoid language technology.
- Abstract(参考訳): 多くのナイジェリアの言語は、現代の社会における以前の権威と目的を英語とナイジェリアのピジンに放棄した。
何百万人もの母国語話者にとって、情報、コミュニケーション、医療、安全保障への不平等なアクセスと、政治的および市民生活への参加を弱める不平等が存在する。
この研究は、排除を最小限に抑え、社会言語と経済的エンパワーメントを促進するために、南ナイジェリアの江戸語族に対するニューラル機械翻訳(NMT)の実現可能性を探る。
新しいJW300公開データセットを用いて、このグループで広く話されている4つの言語、 \`Ed\o, \'Es\'an, Urhobo, Isokoのベースライン翻訳モデルを訓練し、評価した。
トレーニングされたモデル、コード、データセットは、将来のEdoid言語技術の研究を前進させるためにオープンソース化された。
関連論文リスト
- Building low-resource African language corpora: A case study of Kidawida, Kalenjin and Dholuo [0.815557531820863]
本稿では,Kedaw'ida,Kalenjin,Dholuoの3言語を対象とした言語コーパスの開発事例について述べる。
本プロジェクトは,これらの言語の母語話者からテキストや音声データを収集するために,選択的クラウドソーシング手法を用いた。
我々はこれらのリソースをオープン検索プラットフォーム、すなわち並列テキストコーパスのZenodoと音声データセットのMozilla Common Voiceを通じて自由にアクセスできるようにした。
論文 参考訳(メタデータ) (2025-01-19T10:17:21Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Towards End-to-End Training of Automatic Speech Recognition for Nigerian
Pidgin [0.0]
ナイジェリアのピジンは西アフリカで最も人気のある言語の一つである。
我々はナイジェリアのピジンについて最初のパラレル(音声からテキスト)データを提示する。
また,この言語を用いた最初のエンドツーエンド音声認識システムを訓練した。
論文 参考訳(メタデータ) (2020-10-21T16:32:58Z) - Towards Supervised and Unsupervised Neural Machine Translation Baselines
for Nigerian Pidgin [0.2792030485253753]
ナイジェリアのピジン語はおそらくナイジェリアで最も広く話されている言語である。この言語は西アフリカや中央アフリカでも話されている。
この研究は、英語とナイジェリアのピジンの間で、教師付きおよび教師なしのニューラルネットワーク翻訳ベースラインを確立することを目的としている。
論文 参考訳(メタデータ) (2020-03-27T22:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。