論文の概要: MorisienMT: A Dataset for Mauritian Creole Machine Translation
- arxiv url: http://arxiv.org/abs/2206.02421v1
- Date: Mon, 6 Jun 2022 08:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 03:18:07.412037
- Title: MorisienMT: A Dataset for Mauritian Creole Machine Translation
- Title(参考訳): MorisienMT: Mauritian Creole Machine Translationのデータセット
- Authors: Raj Dabre, Aneerav Sukhoo
- Abstract要約: モーリタンクレオールの機械翻訳品質をベンチマークするデータセットである MorisienMT について述べる。
モーリシャス(フランス語: Morisien)は、フランス・モーリシャス共和国の言語。
- 参考スコア(独自算出の注目度): 11.970196153142455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe MorisienMT, a dataset for benchmarking machine
translation quality of Mauritian Creole. Mauritian Creole (Morisien) is the
lingua franca of the Republic of Mauritius and is a French-based creole
language. MorisienMT consists of a parallel corpus between English and
Morisien, French and Morisien and a monolingual corpus for Morisien. We first
give an overview of Morisien and then describe the steps taken to create the
corpora and, from it, the training and evaluation splits. Thereafter, we
establish a variety of baseline models using the created parallel corpora as
well as large French--English corpora for transfer learning. We release our
datasets publicly for research purposes and hope that this spurs research for
Morisien machine translation.
- Abstract(参考訳): 本稿では,モーリタンクレオールの機械翻訳品質のベンチマークデータセットである MorisienMT について述べる。
モーリシャス・クレオール(モーリシャス・クレオール、英語: mauritian creole)は、フランス・モーリシャス共和国のクレオール語族。
MorisienMT は英語と Morisien,フランス語と Morisien の並行コーパスと Morisien の単言語コーパスで構成されている。
まずは、まず、モリシエンの概要を説明し、それからコーパスを作成するためのステップを説明し、そこから、トレーニングと評価を分割する。
その後、作成した並列コーパスと、移動学習のためのフランス語-英語コーパスを用いて、様々なベースラインモデルを構築した。
研究目的でデータセットを公開し、モリシアン機械翻訳の研究を促進することを期待しています。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - CreoleVal: Multilingual Multitask Benchmarks for Creoles [28.959775754396844]
CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、機械理解、関係分類、クレオールのための機械翻訳のための全く新しい開発データセットの集合である。
CreoleValの目標は、NLPおよび計算言語学におけるクレオールの研究を強化することである。
論文 参考訳(メタデータ) (2023-10-30T14:24:20Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - K-UniMorph: Korean Universal Morphology and its Feature Schema [1.3048920509133806]
韓国語に対する新しいユニバーサル・モルフォロジー・データセットを提案する。
文末の文法的基準を詳細に概説し, 屈折形を抽出する方法を明らかにし, 形態的スキーマの生成方法を示す。
我々は,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
論文 参考訳(メタデータ) (2023-05-10T17:44:01Z) - Towards a general purpose machine translation system for Sranantongo [0.0]
スラナントンゴ語(Sranantongo, Sranan, srn)は、スリナムで主に話される低資源クレオール語である。
本研究では,スンのための汎用機械翻訳システムを構築する。
論文 参考訳(メタデータ) (2022-12-13T05:36:18Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Extended Parallel Corpus for Amharic-English Machine Translation [0.0]
リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスを用いて,ニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
論文 参考訳(メタデータ) (2021-04-08T06:51:08Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。