論文の概要: Sicilian Translator: A Recipe for Low-Resource NMT
- arxiv url: http://arxiv.org/abs/2110.01938v1
- Date: Tue, 5 Oct 2021 11:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 20:16:54.389182
- Title: Sicilian Translator: A Recipe for Low-Resource NMT
- Title(参考訳): Sicilian Translator:低リソースNTTのためのレシピ
- Authors: Eryk Wdowiak
- Abstract要約: 17,000対のシチリア語翻訳文で、アルバ・シキュラはシチリア語のための最初のニューラル・マシン・トランスレータを開発した。
降下パラメータの高い小型トランスフォーマーモデルを訓練し,20代前半にBLEUスコアを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With 17,000 pairs of Sicilian-English translated sentences, Arba Sicula
developed the first neural machine translator for the Sicilian language. Using
small subword vocabularies, we trained small Transformer models with high
dropout parameters and achieved BLEU scores in the upper 20s. Then we
supplemented our dataset with backtranslation and multilingual translation and
pushed our scores into the mid 30s. We also attribute our success to
incorporating theoretical information in our dataset. Prior to training, we
biased the subword vocabulary towards the desinences one finds in a textbook.
And we included textbook exercises in our dataset.
- Abstract(参考訳): 17,000対のシチリア英語訳文で、arba siculaはシチリア語の最初のニューラル機械翻訳機を開発した。
サブワード語彙を用いて,高いドロップアウトパラメータを持つ小型トランスフォーマーモデルを訓練し,上位20代でBLEUスコアを達成した。
そして、バックトランスレーションと多言語翻訳でデータセットを補足し、スコアを30代半ばにプッシュしました。
また、私たちの成功は、理論的情報をデータセットに組み込むことによるものです。
学習に先立って,教科書で見いだした語句に対する単語語彙の偏りについて検討した。
教科書の練習をデータセットに含めました
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - The first neural machine translation system for the Erzya language [0.0951828574518325]
絶滅危惧言語エルジーア語とロシア語を翻訳するための最初のニューラルマシン翻訳システムを提案する。
BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、翻訳の半数以上が母語話者によって受け入れられていると評価されている。
収集したテキストコーパス、新しい言語識別モデル、Erzya言語に適応した多言語文エンコーダとともに、翻訳モデルをリリースする。
論文 参考訳(メタデータ) (2022-09-19T22:21:37Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Finetuning a Kalaallisut-English machine translation system using
web-crawled data [6.85316573653194]
西グリーンランド語(西グリーンランド語、英語: West Greenlandic)は、グリーンランドで約56,000人が話している極低資源の合成言語である。
そこで我々は,約30の多言語WebサイトからのWebcrawled pseudoparallel文を用いて,事前訓練されたKalaallisut-to- English neural machine translation (NMT)システムを微調整する。
論文 参考訳(メタデータ) (2022-06-05T17:56:55Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。