論文の概要: FFR v1.1: Fon-French Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2006.09217v1
- Date: Sun, 14 Jun 2020 04:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 09:40:36.500574
- Title: FFR v1.1: Fon-French Neural Machine Translation
- Title(参考訳): FFR v1.1: Fon-French Neural Machine Translation
- Authors: Bonaventure F. P. Dossou and Chris C. Emezue
- Abstract要約: FFRプロジェクトは、非常に低リソースでトーナルな言語であるFonからフランス語への堅牢な翻訳モデルを作成するための大きなステップである。
本稿では、Fon-to- French翻訳のコーパスであるFFRデータセットを導入し、ダイアクリティカル符号化プロセスを説明し、FFR v1.1モデルを紹介した。
- 参考スコア(独自算出の注目度): 0.012691047660244334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: All over the world and especially in Africa, researchers are putting efforts
into building Neural Machine Translation (NMT) systems to help tackle the
language barriers in Africa, a continent of over 2000 different languages.
However, the low-resourceness, diacritical, and tonal complexities of African
languages are major issues being faced. The FFR project is a major step towards
creating a robust translation model from Fon, a very low-resource and tonal
language, to French, for research and public use. In this paper, we introduce
FFR Dataset, a corpus of Fon-to-French translations, describe the diacritical
encoding process, and introduce our FFR v1.1 model, trained on the dataset. The
dataset and model are made publicly available at https://github.com/
bonaventuredossou/ffr-v1, to promote collaboration and reproducibility.
- Abstract(参考訳): 世界中で、特にアフリカで、研究者は2000以上の異なる言語の大陸であるアフリカにおける言語障壁に取り組むために、ニューラルネットワーク翻訳(nmt)システムの構築に力を入れている。
しかし、アフリカの言語の低資源性、ダイアクリティカル性、声調の複雑さは大きな問題となっている。
FFRプロジェクトは、非常に低リソースでトーナルな言語であるFonから、研究と公共利用のためにフランス語への堅牢な翻訳モデルを作成するための大きなステップである。
本稿では、Fon-to- French翻訳のコーパスであるFFRデータセットを紹介し、ダイアクリティカルエンコーディングプロセスを説明し、データセットに基づいてトレーニングされたFFR v1.1モデルを紹介します。
データセットとモデルはhttps://github.com/ bonaventuredossou/ffr-v1で公開されている。
関連論文リスト
- Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Low-Resourced Machine Translation for Senegalese Wolof Language [0.34376560669160383]
リカレントニューラルネットワーク(RNN)に基づく機械翻訳モデルの実験を行った123,000文からなるWolof/Frenchコーパスを並列に提示する。
サブワードデータで訓練されたモデルと、フランス語と英語のペアで訓練されたモデルと、同じ実験条件下で訓練されたフレンチとウーロフのペアで訓練されたモデルとを比較した。
論文 参考訳(メタデータ) (2023-05-01T00:04:19Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - MMTAfrica: Multilingual Machine Translation for African Languages [0.010742675209112621]
MMTAfricaは,アフリカ6言語を対象とした多言語多言語翻訳システムである。
アフリカ語に関する多言語翻訳には, BT&REC という新たな逆翻訳と再構成の目的を導入する。
FLORES 101ベンチマークによるMMTAfricaの改良について報告する。
論文 参考訳(メタデータ) (2022-04-08T21:42:44Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - FFR V1.0: Fon-French Neural Machine Translation [0.012691047660244334]
アフリカは世界で最も言語多様性が高い。
アフリカの言語における低リソース、ダイアクリティカル、トーナルの複雑さは、今日のアフリカNLPが直面している主要な問題である。
本稿では、Fon-to- French翻訳のための大規模コーパスの作成と、このデータセットに基づいてトレーニングされたFFR v1.0モデルについて述べる。
論文 参考訳(メタデータ) (2020-03-26T19:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。