論文の概要: Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings
- arxiv url: http://arxiv.org/abs/2103.06689v1
- Date: Thu, 11 Mar 2021 14:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:47:55.517530
- Title: Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings
- Title(参考訳): 言語間単語埋め込みを用いた多言語ニューラルマシン翻訳における教師なし転送学習
- Authors: Carlos Mullov and Ngoc-Quan Pham and Alexander Waibel
- Abstract要約: 我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
- 参考スコア(独自算出の注目度): 72.69253034282035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we look into adding a new language to a multilingual NMT system
in an unsupervised fashion. Under the utilization of pre-trained cross-lingual
word embeddings we seek to exploit a language independent multilingual sentence
representation to easily generalize to a new language. While using
cross-lingual embeddings for word lookup we decode from a yet entirely unseen
source language in a process we call blind decoding. Blindly decoding from
Portuguese using a basesystem containing several Romance languages we achieve
scores of 36.4 BLEU for Portuguese-English and 12.8 BLEU for Russian-English.
In an attempt to train the mapping from the encoder sentence representation to
a new target language we use our model as an autoencoder. Merely training to
translate from Portuguese to Portuguese while freezing the encoder we achieve
26 BLEU on English-Portuguese, and up to 28 BLEU when adding artificial noise
to the input. Lastly we explore a more practical adaptation approach through
non-iterative backtranslation, exploiting our model's ability to produce high
quality translations through blind decoding. This yields us up to 34.6 BLEU on
English-Portuguese, attaining near parity with a model adapted on real
bilingual data.
- Abstract(参考訳): 本研究では,教師なし方式で多言語NMTシステムに新たな言語を追加することを検討する。
事前訓練された言語間単語埋め込みの活用により,言語に依存しない多言語文表現を活用して,新しい言語への一般化を容易にする。
ワード検索に言語間埋め込みを使用する一方で、ブラインドデコードと呼ばれるプロセスで、まだ完全に見えないソース言語からデコードします。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
エンコーダの文表現から新しいターゲット言語へのマッピングをトレーニングするために,我々のモデルはオートエンコーダとして使用される。
エンコーダを凍結しながらポルトガル語からポルトガル語に翻訳する訓練は、英語-ポルトガル語で26 BLEUを達成し、入力に人工ノイズを追加すると28 BLEUまで達成します。
最後に,ノンイテレーティブなバックトランスレーションによるより実用的な適応アプローチを探求し,ブラインドデコードによる高品質な翻訳を実現するモデルの能力を活用する。
これにより、英語とポルトガル語で最大34.6 BLEUが得られ、実際のバイリンガルデータに適応したモデルでほぼ同値となる。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units [0.0]
コードスイッチングデータをPSSTで検出したインネーションユニットに置き換えて合成する。
我々はM2M-100 418MとNLLB-200 600Mの2つの多言語翻訳モデルのコードスイッチング翻訳性能を評価する。
論文 参考訳(メタデータ) (2024-07-19T13:26:35Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。