論文の概要: Machine Translation for Nko: Tools, Corpora and Baseline Results
- arxiv url: http://arxiv.org/abs/2310.15612v3
- Date: Wed, 15 Nov 2023 08:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 19:23:01.273832
- Title: Machine Translation for Nko: Tools, Corpora and Baseline Results
- Title(参考訳): Nkoの機械翻訳:ツール、コーパス、ベースライン結果
- Authors: Moussa Koulako Bala Doumbouya, Baba Mamadi Dian\'e, Solo Farabado
Ciss\'e, Djibrila Dian\'e, Abdoulaye Sow, S\'er\'e Moussa Doumbouya, Daouda
Bangoura, Fod\'e Moriba Bayo, Ibrahima Sory 2. Cond\'e, Kalo Mory Dian\'e,
Chris Piech, Christopher Manning
- Abstract要約: 複数の西アフリカ諸国で何千万人もの人々が話しているNkoの機械翻訳システムはありません。
我々は,Nkoや他の言語を対象とした機械翻訳システムの開発を目的とした,一連のツール,リソース,ベースラインの成果を示す。
- 参考スコア(独自算出の注目度): 3.993732024424016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Currently, there is no usable machine translation system for Nko, a language
spoken by tens of millions of people across multiple West African countries,
which holds significant cultural and educational value.
To address this issue, we present a set of tools, resources, and baseline
results aimed towards the development of usable machine translation systems for
Nko and other languages that do not currently have sufficiently large parallel
text corpora available.
(1) Fria$\parallel$el: A novel collaborative parallel text curation software
that incorporates quality control through copyedit-based workflows.
(2) Expansion of the FLoRes-200 and NLLB-Seed corpora with 2,009 and 6,193
high-quality Nko translations in parallel with 204 and 40 other languages.
(3) nicolingua-0005: A collection of trilingual and bilingual corpora with
130,850 parallel segments and monolingual corpora containing over 3 million Nko
words.
(4) Baseline bilingual and multilingual neural machine translation results
with the best model scoring 30.83 English-Nko chrF++ on FLoRes-devtest.
- Abstract(参考訳): 現在、複数の西アフリカ諸国で何千万人もの人々が話している言語であるNkoの機械翻訳システムは存在しない。
この問題に対処するために,現在十分に大きな並列テキストコーパスを持っていないNkoや他の言語向けの機械翻訳システムの開発を目的とした,ツール,リソース,ベースラインの一連の結果を示す。
1) fria$\parallel$el: コピードイットベースのワークフローによる品質管理を組み込んだ新しい共同並列テキストキュレーションソフトウェア。
2) FLoRes-200とNLLB-Seedの2,009,6,193の高品質なNko翻訳を204,40言語と並行して拡張した。
3) nicolingua-0005:130,850の並列セグメントを持つ三言語・二言語コーパスと300万以上のnko単語を含む単言語コーパスのコレクション。
(4) ベースラインバイリンガルおよび多言語ニューラルマシン翻訳の結果、FLoRes-devtest上での英語Nko chrF++のスコアが30.83である。
関連論文リスト
- How Multilingual Are Large Language Models Fine-Tuned for Translation? [13.612090779277281]
並列テキスト上での微調整大型言語モデル(LLM)は、大量の並列データに対して教師あり方式で訓練された専用翻訳システムより優れていることが示されている。
翻訳の微調整は、ゼロショット言語、ゼロショット言語ペア、英語を含まない翻訳タスクのLLMのMT機能にどのように影響しますか?
翻訳の微調整により、ゼロショット言語でも平均で翻訳品質が向上するが、関連する言語ペアによる影響は不均一である。
論文 参考訳(メタデータ) (2024-05-30T22:08:20Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - The eBible Corpus: Data and Model Benchmarks for Bible Translation for
Low-Resource Languages [1.4681482563848867]
聖書翻訳(BT)の作業は現在、3,000以上の非常に低リソース言語で進行中である。
聖書の一部の1009の翻訳を含むデータセットを75の言語ファミリーで853の異なる言語で作成する。
BTデータセットのベンチマークに加えて、NLLB(No Language Left Behind)ニューラルマシン翻訳(NMT)モデルに基づいて構築されたモデルパフォーマンスベンチマークを導入する。
論文 参考訳(メタデータ) (2023-04-19T18:52:49Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Simultaneous Multi-Pivot Neural Machine Translation [12.796775798210133]
同時のピボットNMT設定では、2つのピボット言語を使用することで最大5.8 BLEUの改善につながります。
N-way parallel UN corpus for Arabic to English NMTをフランス語とスペイン語でピボットとして用いた低リソース設定における実験により、2つのピボット言語を使用した同時ピボットNMT設定が最大5.8 BLEUの改善につながることが明らかになった。
論文 参考訳(メタデータ) (2021-04-15T12:19:52Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。