論文の概要: Finetuning a Kalaallisut-English machine translation system using
web-crawled data
- arxiv url: http://arxiv.org/abs/2206.02230v1
- Date: Sun, 5 Jun 2022 17:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 10:07:07.666562
- Title: Finetuning a Kalaallisut-English machine translation system using
web-crawled data
- Title(参考訳): Webcrawledデータを用いたKaraallisut-British機械翻訳システム
- Authors: Alex Jones
- Abstract要約: 西グリーンランド語(西グリーンランド語、英語: West Greenlandic)は、グリーンランドで約56,000人が話している極低資源の合成言語である。
そこで我々は,約30の多言語WebサイトからのWebcrawled pseudoparallel文を用いて,事前訓練されたKalaallisut-to- English neural machine translation (NMT)システムを微調整する。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: West Greenlandic, known by native speakers as Kalaallisut, is an extremely
low-resource polysynthetic language spoken by around 56,000 people in
Greenland. Here, we attempt to finetune a pretrained Kalaallisut-to-English
neural machine translation (NMT) system using web-crawled pseudoparallel
sentences from around 30 multilingual websites. We compile a corpus of over
93,000 Kalaallisut sentences and over 140,000 Danish sentences, then use
cross-lingual sentence embeddings and approximate nearest-neighbors search in
an attempt to mine near-translations from these corpora. Finally, we translate
the Danish sentence to English to obtain a synthetic Kalaallisut-English
aligned corpus. Although the resulting dataset is too small and noisy to
improve the pretrained MT model, we believe that with additional resources, we
could construct a better pseudoparallel corpus and achieve more promising
results on MT. We also note other possible uses of the monolingual Kalaallisut
data and discuss directions for future work. We make the code and data for our
experiments publicly available.
- Abstract(参考訳): ウェストグリーンランド語(west greenlandic)は、グリーンランドの約56,000人が話す非常に低資源の多合成言語である。
そこで我々は,約30の多言語WebサイトのWebcrawled pseudoparallel文を用いて,事前訓練されたKaraallisut-to- English neural machine translation (NMT)システムを微調整する。
93,000以上のkalaallisut文と14万以上のデンマーク語文のコーパスをコンパイルし、言語横断的な文埋め込みと近似的なニアハイボー探索を用いて、これらのコーパスから翻訳に近い文を抽出する。
最後に、デンマーク語の文を英語に翻訳し、人工的なカラアリシュ・アライメントコーパスを得る。
得られたデータセットは, 事前訓練されたMTモデルを改善するには小さすぎてうるさいが, 追加資源により, より優れた擬似並列コーパスを構築し, MT上でより有望な結果が得られると信じている。
実験用のコードとデータを公開しています。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese [47.45957604683302]
事前学習には大量のモノリンガルデータが必要であるが、ほとんど英語以外の言語では利用できない。
我々は、英語とIndic言語を例にとり、Webcrawled monolingual document (clean)を対象言語に翻訳する。
そして、この翻訳データに基づいて28Mと85Mのパラメータを含む言語モデルを訓練する(合成)。
下流の自然言語理解および生成タスクにおけるそれらの性能は、クリーンデータで事前訓練されたLMよりも、NLUタスクで3.56%、NLGタスクで1.51%劣っている。
論文 参考訳(メタデータ) (2024-03-20T14:41:01Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Monolingual and Parallel Corpora for Kangri Low Resource Language [0.0]
本稿では,国連教育科学文化機関(unesco)に登録されているヒマカリ低資源絶滅危惧言語kangri(iso 639-3xnr)のデータセットを提案する。
コーパスは1,81,552のモノリンガルと27,362のヒンディー・カングリ・パラレルコーパスを含む。
論文 参考訳(メタデータ) (2021-03-22T05:52:51Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Central Yup'ik and Machine Translation of Low-Resource Polysynthetic
Languages [42.3635848780518]
ユプシク語(Yup'ik language)は、主にアラスカ南西部に住む約8,000人の人々によって話される合成言語である。
我々は、Yup'ikと英語の並列テキストコーパスをコンパイルし、文法規則に基づくYup'ikのモルフォロジーを開発した。
我々は、Yup'ik入力を英語に翻訳するために、注意を向けてSeq2seqニューラルマシン翻訳モデルを訓練した。
論文 参考訳(メタデータ) (2020-09-09T03:11:43Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。