論文の概要: AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT
- arxiv url: http://arxiv.org/abs/2106.05141v1
- Date: Wed, 9 Jun 2021 15:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 21:32:22.855335
- Title: AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT
- Title(参考訳): augvic:低リソースnmtでバイテキストを活用
- Authors: Tasnim Mohiuddin, M Saiful Bari, Shafiq Joty
- Abstract要約: AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 9.797319790710711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of Neural Machine Translation (NMT) largely depends on the
availability of large bitext training corpora. Due to the lack of such large
corpora in low-resource language pairs, NMT systems often exhibit poor
performance. Extra relevant monolingual data often helps, but acquiring it
could be quite expensive, especially for low-resource languages. Moreover,
domain mismatch between bitext (train/test) and monolingual data might degrade
the performance. To alleviate such issues, we propose AUGVIC, a novel data
augmentation framework for low-resource NMT which exploits the vicinal samples
of the given bitext without using any extra monolingual data explicitly. It can
diversify the in-domain bitext data with finer level control. Through extensive
experiments on four low-resource language pairs comprising data from different
domains, we have shown that our method is comparable to the traditional
back-translation that uses extra in-domain monolingual data. When we combine
the synthetic parallel data generated from AUGVIC with the ones from the extra
monolingual data, we achieve further improvements. We show that AUGVIC helps to
attenuate the discrepancies between relevant and distant-domain monolingual
data in traditional back-translation. To understand the contributions of
different components of AUGVIC, we perform an in-depth framework analysis.
- Abstract(参考訳): Neural Machine Translation (NMT)の成功は、大きなbitextトレーニングコーパスの可用性に大きく依存している。
低リソース言語対にそのような大きなコーパスがないため、NMTシステムは性能が劣ることが多い。
特有な単言語データはしばしば役立つが、それを取得することは、特に低リソース言語にとって非常に高価である。
さらに、bitext(train/test)とモノリンガルデータのドメインミスマッチはパフォーマンスを低下させる可能性がある。
このような問題を緩和するために、我々は低リソースNMTのための新しいデータ拡張フレームワークであるAUGVICを提案し、このフレームワークは、余分なモノリンガルデータを明示的に使用することなく、与えられたbitextのビジナルサンプルを利用する。
ドメイン内のbitextデータをより細かいレベル制御で多様化することができる。
異なるドメインからのデータからなる4つの低リソース言語ペアに関する広範な実験を通して、我々の手法は、余分なドメイン内モノリンガルデータを使用する従来のバックトランスレーションに匹敵することを示した。
AUGVICから生成された合成並列データと余分な単言語データとを組み合わせると、さらなる改善が達成される。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和する。
AUGVICの様々なコンポーネントのコントリビューションを理解するために、我々は詳細なフレームワーク分析を行う。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - From Priest to Doctor: Domain Adaptaion for Low-Resource Neural Machine Translation [3.666125285899499]
多くの言語は、高性能汎用ニューラルネットワーク翻訳(NMT)モデルを訓練するのに不十分なデータを持っている。
世界中の言語の多くは、高性能汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
論文 参考訳(メタデータ) (2024-12-01T21:06:08Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文 参考訳(メタデータ) (2023-05-23T14:48:42Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。