論文の概要: The Impact of Syntactic and Semantic Proximity on Machine Translation with Back-Translation
- arxiv url: http://arxiv.org/abs/2403.18031v1
- Date: Tue, 26 Mar 2024 18:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:14:58.273821
- Title: The Impact of Syntactic and Semantic Proximity on Machine Translation with Back-Translation
- Title(参考訳): 後方翻訳による機械翻訳における構文的・意味的近接性の影響
- Authors: Nicolas Guerin, Shane Steinert-Threlkeld, Emmanuel Chemla,
- Abstract要約: 人工言語を用いて実験を行い、言語の性質が効果的な学習方法としてバック翻訳するかどうかを判断する。
一般的な信念とは対照的に, (i) パラレルな単語頻度分布, (ii) 部分的に共有された語彙, (iii) 言語間の類似した構文構造は, バック翻訳の成功を説明するには不十分である。
言語間で平行なリッチなセマンティック依存関係は、バックトランスレーションに基づく教師なし手法の成功の根底にあると推測する。
- 参考スコア(独自算出の注目度): 7.557957450498644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised on-the-fly back-translation, in conjunction with multilingual pretraining, is the dominant method for unsupervised neural machine translation. Theoretically, however, the method should not work in general. We therefore conduct controlled experiments with artificial languages to determine what properties of languages make back-translation an effective training method, covering lexical, syntactic, and semantic properties. We find, contrary to popular belief, that (i) parallel word frequency distributions, (ii) partially shared vocabulary, and (iii) similar syntactic structure across languages are not sufficient to explain the success of back-translation. We show however that even crude semantic signal (similar lexical fields across languages) does improve alignment of two languages through back-translation. We conjecture that rich semantic dependencies, parallel across languages, are at the root of the success of unsupervised methods based on back-translation. Overall, the success of unsupervised machine translation was far from being analytically guaranteed. Instead, it is another proof that languages of the world share deep similarities, and we hope to show how to identify which of these similarities can serve the development of unsupervised, cross-linguistic tools.
- Abstract(参考訳): 教師なしオンザフライ翻訳と多言語事前学習は、教師なしニューラルネットワーク翻訳の主要な方法である。
しかし理論的には、この方法は一般には機能しない。
そこで, 人工言語を用いた制御実験を行い, 語彙, 構文, 意味的特性を網羅し, 言語特性の逆翻訳が効果的な学習方法となるかを検証した。
私たちは、大衆の信念に反して、そのことを見つける
(i)パラレルワード頻度分布
(二)一部共有語彙、及び
(iii)言語間の類似した構文構造は、バック翻訳の成功を説明するには不十分である。
しかし、言語間の類似の語彙場である粗い意味信号でさえ、バックトランスレーションによって2言語間のアライメントを改善することを示す。
言語間で平行なリッチなセマンティック依存関係は、バックトランスレーションに基づく教師なし手法の成功の根底にあると推測する。
全体として、教師なし機械翻訳の成功は分析的に保証されるには程遠いものだった。
むしろ、世界中の言語が深い類似点を共有しているという別の証拠であり、これらの類似点のどれが教師なし、言語横断的なツールの開発に役立つかを示すことを願っている。
関連論文リスト
- Can Machine Translation Bridge Multilingual Pretraining and Cross-lingual Transfer Learning? [8.630930380973489]
本稿では,機械翻訳を言語表現学習の強化を目的とした継続的な学習目的として活用する可能性について検討する。
この結果から,機械翻訳の継続学習が言語間表現学習の強化に失敗することが明らかとなった。
言語横断シナリオにおける明示的な文レベルのアライメントは、言語間移動事前学習に有害である、と結論付けた。
論文 参考訳(メタデータ) (2024-03-25T13:53:04Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - A Call for More Rigor in Unsupervised Cross-lingual Learning [76.6545568416577]
このような研究の既存の理論的根拠は、世界の多くの言語における並列データの欠如に基づいている。
並列データと豊富なモノリンガルデータのないシナリオは現実的には非現実的であると我々は主張する。
論文 参考訳(メタデータ) (2020-04-30T17:06:23Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。