論文の概要: MorisienMT: A Dataset for Mauritian Creole Machine Translation
- arxiv url: http://arxiv.org/abs/2206.02421v1
- Date: Mon, 6 Jun 2022 08:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 03:18:07.412037
- Title: MorisienMT: A Dataset for Mauritian Creole Machine Translation
- Title(参考訳): MorisienMT: Mauritian Creole Machine Translationのデータセット
- Authors: Raj Dabre, Aneerav Sukhoo
- Abstract要約: モーリタンクレオールの機械翻訳品質をベンチマークするデータセットである MorisienMT について述べる。
モーリシャス(フランス語: Morisien)は、フランス・モーリシャス共和国の言語。
- 参考スコア(独自算出の注目度): 11.970196153142455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe MorisienMT, a dataset for benchmarking machine
translation quality of Mauritian Creole. Mauritian Creole (Morisien) is the
lingua franca of the Republic of Mauritius and is a French-based creole
language. MorisienMT consists of a parallel corpus between English and
Morisien, French and Morisien and a monolingual corpus for Morisien. We first
give an overview of Morisien and then describe the steps taken to create the
corpora and, from it, the training and evaluation splits. Thereafter, we
establish a variety of baseline models using the created parallel corpora as
well as large French--English corpora for transfer learning. We release our
datasets publicly for research purposes and hope that this spurs research for
Morisien machine translation.
- Abstract(参考訳): 本稿では,モーリタンクレオールの機械翻訳品質のベンチマークデータセットである MorisienMT について述べる。
モーリシャス・クレオール(モーリシャス・クレオール、英語: mauritian creole)は、フランス・モーリシャス共和国のクレオール語族。
MorisienMT は英語と Morisien,フランス語と Morisien の並行コーパスと Morisien の単言語コーパスで構成されている。
まずは、まず、モリシエンの概要を説明し、それからコーパスを作成するためのステップを説明し、そこから、トレーニングと評価を分割する。
その後、作成した並列コーパスと、移動学習のためのフランス語-英語コーパスを用いて、様々なベースラインモデルを構築した。
研究目的でデータセットを公開し、モリシアン機械翻訳の研究を促進することを期待しています。
関連論文リスト
- Ukrainian-to-English folktale corpus: Parallel corpus creation and augmentation for machine translation in low-resource languages [0.0]
我々は、利用可能な英語の翻訳に基づいて、ウクライナ語と英語の類似したウクライナの民俗の新たなコーパスを作成しました。
私たちのコーパスは単語と文の一致であり、特に機械翻訳モデルのトレーニングデータとしての使用に適した意味の最良のキュレーションを可能にします。
論文 参考訳(メタデータ) (2024-10-14T01:00:53Z) - Neural machine translation system for Lezgian, Russian and Azerbaijani languages [0.0]
我々は、ロシア語、アゼルバイジャン語および絶滅危惧言語間の翻訳のための最初のニューラルマシン翻訳システムをリリースした。
複数の実験により、トレーニング言語ペアとデータドメインの異なるセットが、結果の翻訳品質にどのように影響するかを特定する。
論文 参考訳(メタデータ) (2024-10-07T20:08:10Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - CreoleVal: Multilingual Multitask Benchmarks for Creoles [46.50887462355172]
CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、理解、関係分類、クレオールの機械翻訳のための新しい開発データセットの集合である。
論文 参考訳(メタデータ) (2023-10-30T14:24:20Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - K-UniMorph: Korean Universal Morphology and its Feature Schema [1.3048920509133806]
韓国語に対する新しいユニバーサル・モルフォロジー・データセットを提案する。
文末の文法的基準を詳細に概説し, 屈折形を抽出する方法を明らかにし, 形態的スキーマの生成方法を示す。
我々は,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
論文 参考訳(メタデータ) (2023-05-10T17:44:01Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Extended Parallel Corpus for Amharic-English Machine Translation [0.0]
リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスを用いて,ニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
論文 参考訳(メタデータ) (2021-04-08T06:51:08Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。