論文の概要: Utilizing Lexical Similarity to Enable Zero-Shot Machine Translation for
Extremely Low-resource Languages
- arxiv url: http://arxiv.org/abs/2305.05214v1
- Date: Tue, 9 May 2023 07:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:35:32.181480
- Title: Utilizing Lexical Similarity to Enable Zero-Shot Machine Translation for
Extremely Low-resource Languages
- Title(参考訳): 語彙的類似性を利用した極低リソース言語におけるゼロショット機械翻訳
- Authors: Kaushal Kumar Maurya, Rahul Kejriwal, Maunendra Sankar Desarkar, Anoop
Kunchukuttan
- Abstract要約: 我々は、非常に低リソース言語(LRL)から英語への機械翻訳の課題を、密接に関連する高リソース言語(HRL)からの言語間移動を用いて解決する。
これらの言語の多くでは、パラレルコーパスは利用できず、モノリンガルコーパスも限定されており、事前訓練されたシーケンス・ツー・シーケンスモデルでの表現は欠落している。
語彙学習に先立ってHRLのトレーニングデータに文字と文字スパンノイズを注入することにより,この特性を利用する。
- 参考スコア(独自算出の注目度): 10.895201896572479
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We address the task of machine translation from an extremely low-resource
language (LRL) to English using cross-lingual transfer from a closely related
high-resource language (HRL). For many of these languages, no parallel corpora
are available, even monolingual corpora are limited and representations in
pre-trained sequence-to-sequence models are absent. These factors limit the
benefits of cross-lingual transfer from shared embedding spaces in multilingual
models. However, many extremely LRLs have a high level of lexical similarity
with related HRLs. We utilize this property by injecting character and
character-span noise into the training data of the HRL prior to learning the
vocabulary. This serves as a regularizer which makes the model more robust to
lexical divergences between the HRL and LRL and better facilitates
cross-lingual transfer. On closely related HRL and LRL pairs from multiple
language families, we observe that our method significantly outperforms the
baseline MT as well as approaches proposed previously to address cross-lingual
transfer between closely related languages. We also show that the proposed
character-span noise injection performs better than the unigram-character noise
injection.
- Abstract(参考訳): 本稿では,非常に低リソース言語 (LRL) から英語への機械翻訳の課題を,近縁な高リソース言語 (HRL) からの言語間変換を用いて解決する。
これらの言語の多くでは、並列コーパスは使用できず、単言語コーパスでさえ制限されており、事前訓練されたシーケンスからシーケンスへのモデルの表現が欠落している。
これらの要因は多言語モデルにおける共有埋め込み空間からの言語間移動の利点を制限する。
しかし、多くの超LRLは関連するHRLとの語彙的類似性が高い。
語彙学習前にHRLのトレーニングデータに文字と文字スパンノイズを注入することにより,この特性を利用する。
これは正則化器として機能し、HRLとLRLの間の語彙の分岐をより堅牢にし、言語間移動を容易にする。
本手法は,複数の言語族に属するHRLとLRLのペアについて,従来提案されてきた言語間の言語間移動に対処する手法と同様に,ベースラインMTよりも有意に優れていた。
また,提案手法はユニグラム・キャラクタ・ノイズ・インジェクションよりも優れた性能を示すことを示す。
関連論文リスト
- Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models [12.447489454369636]
本稿では,Large Language Models (LLM) を用いた文レベルの幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。
LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成することができる。
論文 参考訳(メタデータ) (2024-07-23T13:40:54Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages [29.346191691508125]
非教師付きバイリンガルレキシコン誘導は、大規模なデータセットが利用できない低リソース言語にとって最も有用である。
文献における最先端のBLI手法は,データ不均衡な言語ペアに対してほぼゼロに近い性能を示す。
本稿では,関連するLRLとHRLの間には,HRLのマスキング言語モデルに対してのみ推論を必要とする,教師なしBLIの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:49:21Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Non-Linear Pairwise Language Mappings for Low-Resource Multilingual
Acoustic Model Fusion [26.728287476234538]
ハイブリッドDNN-HMM音響モデル融合は低リソース言語のための多言語構成で提案される。
異なる単言語音響モデルから対象言語音声信号に対する後部分布を融合する。
ソースターゲット言語ペア毎に別々の回帰ニューラルネットワークをトレーニングし、ソースアコースティックモデルからターゲット言語へ後部を変換する。
論文 参考訳(メタデータ) (2022-07-07T15:56:50Z) - Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages [18.862296065737347]
語彙重なりの次元に沿った言語族における言語間の関連性は、LRLのコーパス制限を克服するために活用される可能性がある。
そこで我々は,BPE語彙生成アルゴリズムを改良したOverlap BPEを提案する。
論文 参考訳(メタデータ) (2022-03-03T19:35:24Z) - Can Multilinguality benefit Non-autoregressive Machine Translation? [11.671379480940407]
非自己回帰(NAR)機械翻訳は、最近大幅に改善され、いくつかのベンチマークで自己回帰(AR)モデルを上回っている。
本研究は多言語NARの総合的研究である。
容量制約下で、関連する言語間の正の転送と負の転送に関して、その能力をテストする。
論文 参考訳(メタデータ) (2021-12-16T02:20:59Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z) - Cross-lingual Semantic Role Labeling with Model Transfer [49.85316125365497]
言語間セマンティックロールラベリングは、普遍的な特徴の助けを借りてモデル転送によって達成できる。
本稿では,多種多様なユニバーサル特徴と転送手法を組み込んだエンドツーエンドSRLモデルを提案する。
論文 参考訳(メタデータ) (2020-08-24T09:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。