論文の概要: A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data
- arxiv url: http://arxiv.org/abs/2011.07403v3
- Date: Mon, 22 Nov 2021 13:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:09:22.760771
- Title: A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data
- Title(参考訳): 単言語データを用いた低リソースニューラルマシン翻訳のハイブリッド化
- Authors: Idris Abdulmumin, Bashir Shehu Galadanci, Abubakar Isa, Habeebah Adamu
Kakudi, Ismaila Idris Sinan
- Abstract要約: 多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many language pairs are low resource, meaning the amount and/or quality of
available parallel data is not sufficient to train a neural machine translation
(NMT) model which can reach an acceptable standard of accuracy. Many works have
explored using the readily available monolingual data in either or both of the
languages to improve the standard of translation models in low, and even high,
resource languages. One of the most successful of such works is the
back-translation that utilizes the translations of the target language
monolingual data to increase the amount of the training data. The quality of
the backward model which is trained on the available parallel data has been
shown to determine the performance of the back-translation approach. Despite
this, only the forward model is improved on the monolingual target data in
standard back-translation. A previous study proposed an iterative
back-translation approach for improving both models over several iterations.
But unlike in the traditional back-translation, it relied on both the target
and source monolingual data. This work, therefore, proposes a novel approach
that enables both the backward and forward models to benefit from the
monolingual target data through a hybrid of self-learning and back-translation
respectively. Experimental results have shown the superiority of the proposed
approach over the traditional back-translation method on English-German low
resource neural machine translation. We also proposed an iterative
self-learning approach that outperforms the iterative back-translation while
also relying only on the monolingual target data and require the training of
less models.
- Abstract(参考訳): 多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、許容できる精度の基準に達するニューラルマシン翻訳(NMT)モデルをトレーニングするのに十分ではない。
多くの研究が、翻訳モデルの標準を低くかつ高いリソース言語で改善するために、言語のいずれかまたは両方で利用可能なモノリンガルデータを用いて検討してきた。
このような研究で最も成功したのが、対象言語の単言語データの翻訳を利用してトレーニングデータの量を増やすバックトランスレーションである。
利用可能な並列データに基づいてトレーニングされた後方モデルの品質は、バックトランスレーション手法の性能を決定するために示されている。
それにもかかわらず、標準のバックトランスレーションにおいてモノリンガルターゲットデータに対してフォワードモデルのみが改善される。
前回の研究では、反復的なバックトランスレーションアプローチが提案された。
しかし、従来のバックトランスレーションとは異なり、ターゲットとソースの両方の単言語データに依存していた。
そこで本研究では,後進モデルと前進モデルの両方が,それぞれ自己学習とバックトランスレーションのハイブリッドによって,単言語的対象データから利益を得るための新しいアプローチを提案する。
実験の結果、従来のバックトランスレーション法よりも、英語とドイツ語の低リソースニューラルマシン翻訳において、提案手法が優れていることが示された。
また,単言語的目標データのみに依存しながら,少ないモデルのトレーニングを必要とする反復的自己学習手法を提案する。
関連論文リスト
- An Efficient Approach for Machine Translation on Low-resource Languages: A Case Study in Vietnamese-Chinese [1.6932009464531739]
ベトナム中国語などの低リソース言語で機械翻訳を行う手法を提案する。
提案手法は,多言語事前学習言語モデル(mBART)とベトナム語と中国語の単言語コーパスのパワーを利用した。
論文 参考訳(メタデータ) (2025-01-31T17:11:45Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Exploring Monolingual Data for Neural Machine Translation with Knowledge
Distillation [10.745228927771915]
ニューラルマシン翻訳(nmt)のための知識蒸留訓練に含まれる2種類の単言語データについて検討する。
ソース側モノリンガルデータは,ソース側から得られたテストセットによって評価すると,モデルの性能が向上することがわかった。
また、ドメインが同じである限り、教師が使用するデータと同じデータを用いて、生徒モデルのトレーニングは不要であることを示す。
論文 参考訳(メタデータ) (2020-12-31T05:28:42Z) - Enhanced back-translation for low resource neural machine translation
using self-training [0.0]
本研究は,後進モデルの出力を用いて前方翻訳手法を用いてモデル自体を改善する自己学習戦略を提案する。
この技術は、ベースラインの低リソースであるIWSLT'14とIWSLT'15をそれぞれ11.06と1.5BLEUに改良することを示した。
改良された英語-ドイツ語の後方モデルによって生成された合成データを用いて前方モデルを訓練し、2.7BLEUで標準の後方翻訳を用いて訓練された別の前方モデルより優れていた。
論文 参考訳(メタデータ) (2020-06-04T14:19:52Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。