論文の概要: CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine
Translation for Extremely Low-resource Languages
- arxiv url: http://arxiv.org/abs/2305.05214v2
- Date: Sun, 4 Feb 2024 06:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:41:30.590065
- Title: CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine
Translation for Extremely Low-resource Languages
- Title(参考訳): CharSpan:極低リソース言語のためのゼロショット機械翻訳を可能にする語彙的類似性を活用する
- Authors: Kaushal Kumar Maurya, Rahul Kejriwal, Maunendra Sankar Desarkar, Anoop
Kunchukuttan
- Abstract要約: 我々は,超低リソース言語 (ELRL) から英語への機械翻訳 (MT) の課題を,「近縁」な高リソース言語 (HRL) からの言語間移動を活用して解決する。
多くのERRLは、いくつかのHRLと語彙的類似性を共有しており、新しいモデリングの機会を提供する。
既存のサブワードベースのニューラルMTモデルは、HRLとELRLの埋め込み空間を暗黙的に調整するだけであるため、この語彙的類似性を明示的に利用しない。
HRLのトレーニングデータに「文字スパンノイズ増強」に基づく新しいCharSpanアプローチを提案する。
- 参考スコア(独自算出の注目度): 22.51558549091902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We address the task of machine translation (MT) from extremely low-resource
language (ELRL) to English by leveraging cross-lingual transfer from
'closely-related' high-resource language (HRL). The development of an MT system
for ELRL is challenging because these languages typically lack parallel corpora
and monolingual corpora, and their representations are absent from large
multilingual language models. Many ELRLs share lexical similarities with some
HRLs, which presents a novel modeling opportunity. However, existing
subword-based neural MT models do not explicitly harness this lexical
similarity, as they only implicitly align HRL and ELRL latent embedding space.
To overcome this limitation, we propose a novel, CharSpan, approach based on
'character-span noise augmentation' into the training data of HRL. This serves
as a regularization technique, making the model more robust to 'lexical
divergences' between the HRL and ELRL, thus facilitating effective
cross-lingual transfer. Our method significantly outperformed strong baselines
in zero-shot settings on closely related HRL and ELRL pairs from three diverse
language families, emerging as the state-of-the-art model for ELRLs.
- Abstract(参考訳): 我々は,超低リソース言語 (ELRL) から英語への機械翻訳 (MT) の課題を,「密接な」高リソース言語 (HRL) からの言語間移動を活用して解決する。
ELRLのためのMTシステムの開発は、典型的には並列コーパスと単言語コーパスを欠いているため、大きな多言語言語モデルにはないため、困難である。
多くのERRLは、いくつかのHRLと語彙的類似性を共有し、新しいモデリングの機会を提供する。
しかし、既存のサブワードベースのニューラルMTモデルは、HRLとELRLの埋め込み空間を暗黙的に調整するだけであるため、この語彙的類似性を明示的に利用していない。
この制限を克服するため、HRLのトレーニングデータに「文字スパンノイズ増強」に基づく新しいCharSpanアプローチを提案する。
これは正規化技術として機能し、HRLとERRLの間の「語彙分岐」をより堅牢にすることで、効果的な言語間移動を促進する。
提案手法は,ERRLの最先端モデルとして出現する3つの言語ファミリーのHRLとERRLペアのゼロショット設定において,強いベースラインを著しく向上させた。
関連論文リスト
- Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models [12.447489454369636]
本稿では,Large Language Models (LLM) を用いた文レベルの幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。
LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成することができる。
論文 参考訳(メタデータ) (2024-07-23T13:40:54Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages [29.346191691508125]
非教師付きバイリンガルレキシコン誘導は、大規模なデータセットが利用できない低リソース言語にとって最も有用である。
文献における最先端のBLI手法は,データ不均衡な言語ペアに対してほぼゼロに近い性能を示す。
本稿では,関連するLRLとHRLの間には,HRLのマスキング言語モデルに対してのみ推論を必要とする,教師なしBLIの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:49:21Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Non-Linear Pairwise Language Mappings for Low-Resource Multilingual
Acoustic Model Fusion [26.728287476234538]
ハイブリッドDNN-HMM音響モデル融合は低リソース言語のための多言語構成で提案される。
異なる単言語音響モデルから対象言語音声信号に対する後部分布を融合する。
ソースターゲット言語ペア毎に別々の回帰ニューラルネットワークをトレーニングし、ソースアコースティックモデルからターゲット言語へ後部を変換する。
論文 参考訳(メタデータ) (2022-07-07T15:56:50Z) - Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages [18.862296065737347]
語彙重なりの次元に沿った言語族における言語間の関連性は、LRLのコーパス制限を克服するために活用される可能性がある。
そこで我々は,BPE語彙生成アルゴリズムを改良したOverlap BPEを提案する。
論文 参考訳(メタデータ) (2022-03-03T19:35:24Z) - Can Multilinguality benefit Non-autoregressive Machine Translation? [11.671379480940407]
非自己回帰(NAR)機械翻訳は、最近大幅に改善され、いくつかのベンチマークで自己回帰(AR)モデルを上回っている。
本研究は多言語NARの総合的研究である。
容量制約下で、関連する言語間の正の転送と負の転送に関して、その能力をテストする。
論文 参考訳(メタデータ) (2021-12-16T02:20:59Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z) - Cross-lingual Semantic Role Labeling with Model Transfer [49.85316125365497]
言語間セマンティックロールラベリングは、普遍的な特徴の助けを借りてモデル転送によって達成できる。
本稿では,多種多様なユニバーサル特徴と転送手法を組み込んだエンドツーエンドSRLモデルを提案する。
論文 参考訳(メタデータ) (2020-08-24T09:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。