論文の概要: Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages
- arxiv url: http://arxiv.org/abs/2206.04439v1
- Date: Thu, 9 Jun 2022 12:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 21:23:56.336385
- Title: Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages
- Title(参考訳): Dict-NMT:極低資源言語のためのバイリンガル辞書に基づくNMT
- Authors: Nalin Kumar, Deepak Kumar, Subhankar Mishra
- Abstract要約: 本稿では,辞書の品質,学習データセットのサイズ,言語家族などの影響を詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
- 参考スコア(独自算出の注目度): 1.8787713898828164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Machine Translation (NMT) models have been effective on large
bilingual datasets. However, the existing methods and techniques show that the
model's performance is highly dependent on the number of examples in training
data. For many languages, having such an amount of corpora is a far-fetched
dream. Taking inspiration from monolingual speakers exploring new languages
using bilingual dictionaries, we investigate the applicability of bilingual
dictionaries for languages with extremely low, or no bilingual corpus. In this
paper, we explore methods using bilingual dictionaries with an NMT model to
improve translations for extremely low resource languages. We extend this work
to multilingual systems, exhibiting zero-shot properties. We present a detailed
analysis of the effects of the quality of dictionaries, training dataset size,
language family, etc., on the translation quality. Results on multiple
low-resource test languages show a clear advantage of our bilingual
dictionary-based method over the baselines.
- Abstract(参考訳): ニューラル機械翻訳(NMT)モデルは、大きなバイリンガルデータセットに有効である。
しかし,既存の手法や手法は,モデルの性能がトレーニングデータの例の数に大きく依存していることを示している。
多くの言語にとって、このような量のコーパスを持つことは、遠い夢である。
バイリンガル辞書を用いた新言語を探索する単言語話者からインスピレーションを得て,バイリンガルコーパスが極めて低い言語に対するバイリンガル辞書の適用性を検討した。
本稿では,NMTモデルを用いたバイリンガル辞書を用いて,極めて低リソース言語に対する翻訳を改善する方法について検討する。
この作業を多言語システムに拡張し、ゼロショット特性を示す。
本稿では,辞書の品質,データセットサイズ,言語ファミリー等が翻訳品質に及ぼす影響について詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine
Translation [33.6064740446337]
この研究は、この問題に対処するための安価で豊富な資源であるバイリンガル・レキシカを探求する。
我々は,ウェブクローリングテキストを用いた200言語翻訳モデルを用いて,実世界の辞書におけるバイリンガル辞書の有効性を検証した。
筆者らは,(1)語彙データ拡張を用いて,教師なし翻訳の性能向上を実証し,(2)データ拡張のいくつかの家系を比較し,それらが類似した改善をもたらすことを示すとともに,(3)より大きく,ノイズの多いレキシカよりも慎重にキュレートされたレキシカの重要性を示す。
論文 参考訳(メタデータ) (2023-03-27T14:54:43Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Assessing the Bilingual Knowledge Learned by Neural Machine Translation
Models [72.56058378313963]
NMTモデルで学習したバイリンガル知識をフレーズテーブルで評価することで,このギャップを埋める。
NMTモデルは、単純なものから複雑なものまでパターンを学習し、トレーニング例から本質的なバイリンガル知識を抽出する。
論文 参考訳(メタデータ) (2020-04-28T03:44:34Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。