論文の概要: Neural Machine Translation for Extremely Low-Resource African Languages:
A Case Study on Bambara
- arxiv url: http://arxiv.org/abs/2011.05284v1
- Date: Tue, 10 Nov 2020 18:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:22:15.261672
- Title: Neural Machine Translation for Extremely Low-Resource African Languages:
A Case Study on Bambara
- Title(参考訳): 極低資源アフリカの言語に対するニューラル機械翻訳 : バンバラを事例として
- Authors: Allahsera Auguste Tapo, Bakary Coulibaly, S\'ebastien Diarra,
Christopher Homan, Julia Kreutzer, Sarah Luger, Arthur Nagashima, Marcos
Zampieri, Michael Leventhal
- Abstract要約: トレーニングデータが少なく,大量の事前処理を必要とするマンド語であるBambaraについて論じる。
本稿では,Bambaraを英語とフランス語に翻訳するための最初の並列データセットと,Bambaraの機械翻訳における最初のベンチマーク結果を示す。
- 参考スコア(独自算出の注目度): 12.805211850642012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource languages present unique challenges to (neural) machine
translation. We discuss the case of Bambara, a Mande language for which
training data is scarce and requires significant amounts of pre-processing.
More than the linguistic situation of Bambara itself, the socio-cultural
context within which Bambara speakers live poses challenges for automated
processing of this language. In this paper, we present the first parallel data
set for machine translation of Bambara into and from English and French and the
first benchmark results on machine translation to and from Bambara. We discuss
challenges in working with low-resource languages and propose strategies to
cope with data scarcity in low-resource machine translation (MT).
- Abstract(参考訳): 低リソース言語は(神経)機械翻訳に固有の課題を示す。
本稿では,トレーニングデータが不足し,大量の前処理を必要とするマンデ言語であるbambaraの事例について述べる。
バンバラ語そのものの言語的状況よりも、バンバラ話者が住む社会文化的文脈は、この言語の自動処理の課題を提起している。
本稿では,Bambaraを英語とフランス語に翻訳するための最初の並列データセットと,Bambaraの機械翻訳における最初のベンチマーク結果を示す。
我々は低リソース言語を扱う際の課題について議論し、低リソース機械翻訳(MT)におけるデータ不足に対処するための戦略を提案する。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Domain-specific MT for Low-resource Languages: The case of
Bambara-French [1.6519388257052223]
本稿では,Bambaraをフランス語から翻訳するための最初のドメイン固有並列データセットを提案する。
低リソース言語のための少数のドメイン固有データを扱う際の課題について論じる。
論文 参考訳(メタデータ) (2021-03-31T18:12:03Z) - Towards Machine Translation for the Kurdish Language [0.0]
機械翻訳は、ある言語から別の言語にコンピュータを使ってテキストを翻訳するタスクである。
インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。
本稿では,Sorani Kurdish-British翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。
論文 参考訳(メタデータ) (2020-10-12T21:28:57Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。