論文の概要: FFR V1.0: Fon-French Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2003.12111v1
- Date: Thu, 26 Mar 2020 19:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:40:02.498598
- Title: FFR V1.0: Fon-French Neural Machine Translation
- Title(参考訳): FFR V1.0: Fon-French Neural Machine Translation
- Authors: Bonaventure F. P. Dossou and Chris C. Emezue
- Abstract要約: アフリカは世界で最も言語多様性が高い。
アフリカの言語における低リソース、ダイアクリティカル、トーナルの複雑さは、今日のアフリカNLPが直面している主要な問題である。
本稿では、Fon-to- French翻訳のための大規模コーパスの作成と、このデータセットに基づいてトレーニングされたFFR v1.0モデルについて述べる。
- 参考スコア(独自算出の注目度): 0.012691047660244334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Africa has the highest linguistic diversity in the world. On account of the
importance of language to communication, and the importance of reliable,
powerful and accurate machine translation models in modern inter-cultural
communication, there have been (and still are) efforts to create
state-of-the-art translation models for the many African languages. However,
the low-resources, diacritical and tonal complexities of African languages are
major issues facing African NLP today. The FFR is a major step towards creating
a robust translation model from Fon, a very low-resource and tonal language, to
French, for research and public use. In this paper, we describe our pilot
project: the creation of a large growing corpora for Fon-to-French translations
and our FFR v1.0 model, trained on this dataset. The dataset and model are made
publicly available.
- Abstract(参考訳): アフリカは世界で最も言語多様性が高い。
現代の文化間コミュニケーションにおいて、言語がコミュニケーションに重要であること、信頼性があり強力で正確な機械翻訳モデルの重要性から、多くのアフリカの言語に対して最先端の翻訳モデルを作成するための努力が(まだ)行われている。
しかしながら、アフリカ言語の低資源、ダイアクリティカル、トーナルな複雑さは、今日ではアフリカNLPが直面している主要な問題である。
FFRは、非常に低リソースでトーナルな言語であるFonから、研究と公共利用のためにフランス語への堅牢な翻訳モデルを作成するための大きなステップである。
本稿では,fon-to- french翻訳のための大規模コーパスの作成と,このデータセットで学習したffr v1.0モデルについて述べる。
データセットとモデルが公開されている。
関連論文リスト
- Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - How Good are Commercial Large Language Models on African Languages? [0.012691047660244334]
本研究では,8つのアフリカの言語を対象とした2つのタスク(機械翻訳とテキスト分類)における商業的大規模言語モデルの予備的分析を行う。
この結果から, 商業言語モデルがアフリカ語で低水準のパフォーマンスを生んでいることが示唆された。
一般論として,アフリカの言語が商業的な大規模言語モデルでよく表現されていることを保証するために,我々の研究成果はコール・ツー・アクションとして提示される。
論文 参考訳(メタデータ) (2023-05-11T02:29:53Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - AfroLM: A Self-Active Learning-based Multilingual Pretrained Language
Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。
AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。
様々な領域にまたがってうまく一般化することができる。
論文 参考訳(メタデータ) (2022-11-07T02:15:25Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - English2Gbe: A multilingual machine translation model for {Fon/Ewe}Gbe [0.0]
本稿では,英語からEwe or Fonへの翻訳が可能な多言語ニューラルマシン翻訳モデルである English2Gbe を紹介する。
英語2Gbeはバイリンガルモデル(Ewe と English Fon )より優れており、Fon の JW300 ベンチマークでは最先端の結果が得られている。
論文 参考訳(メタデータ) (2021-12-13T10:35:09Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - FFR v1.1: Fon-French Neural Machine Translation [0.012691047660244334]
FFRプロジェクトは、非常に低リソースでトーナルな言語であるFonからフランス語への堅牢な翻訳モデルを作成するための大きなステップである。
本稿では、Fon-to- French翻訳のコーパスであるFFRデータセットを導入し、ダイアクリティカル符号化プロセスを説明し、FFR v1.1モデルを紹介した。
論文 参考訳(メタデータ) (2020-06-14T04:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。