論文の概要: Beyond Shared Vocabulary: Increasing Representational Word Similarities
across Languages for Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2305.14189v1
- Date: Tue, 23 May 2023 16:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:04:55.649217
- Title: Beyond Shared Vocabulary: Increasing Representational Word Similarities
across Languages for Multilingual Machine Translation
- Title(参考訳): 共有語彙を超えて:多言語機械翻訳のための言語間の表現的単語類似性の向上
- Authors: Di Wu and Christof Monz
- Abstract要約: 多言語ニューラルマシン翻訳(MNMT)における共通語彙の使用
本稿では,最初の問題を緩和するため,埋め込み構築のための再パラメータ化手法を提案する。
具体的には、単語同値クラスによる単語レベルの情報伝達経路を定義し、言語間の単語埋め込みを融合するためにグラフネットワークに依存する。
- 参考スコア(独自算出の注目度): 7.937222940957952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using a shared vocabulary is common practice in Multilingual Neural Machine
Translation (MNMT). In addition to its simple design, shared tokens play an
important role in positive knowledge transfer, which manifests naturally when
the shared tokens refer to similar meanings across languages. However, natural
flaws exist in such a design as well: 1) when languages use different writing
systems, transfer is inhibited, and 2) even if languages use similar writing
systems, shared tokens may have completely different meanings in different
languages, increasing ambiguity. In this paper, we propose a re-parameterized
method for building embeddings to alleviate the first problem. More
specifically, we define word-level information transfer pathways via word
equivalence classes and rely on graph networks to fuse word embeddings across
languages. Our experiments demonstrate the advantages of our approach: 1) the
semantics of embeddings are better aligned across languages, 2) our method
achieves significant BLEU improvements on high- and low-resource MNMT, and 3)
only less than 1.0\% additional trainable parameters are required with a
limited increase in computational costs.
- Abstract(参考訳): 共有語彙の使用は、MNMT(Multilingual Neural Machine Translation)において一般的である。
その単純な設計に加えて、共有トークンは肯定的な知識伝達において重要な役割を果たす。
しかし、このような設計には自然の欠陥もある。
1)言語が異なる文字体系を使用する場合、転送を阻害し、
2) 言語が類似の書き込みシステムを使用しているとしても,共有トークンは異なる言語で完全に異なる意味を持ち,曖昧さが増す可能性がある。
本稿では,最初の問題を緩和するため,埋め込み構築のための再パラメータ化手法を提案する。
具体的には,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。
我々の実験は我々のアプローチの利点を示しています
1)埋め込みのセマンティクスは言語間でよりよく一致します。
2) 高速・低出力MNMTにおけるBLEUの大幅な改善を実現し,
3) 計算コストが制限された場合, 追加のトレーニング可能なパラメータは 1.0 % 未満に留まる。
関連論文リスト
- Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - Improving Multilingual Neural Machine Translation For Low-Resource
Languages: French-, English- Vietnamese [4.103253352106816]
本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。
両言語対のバイリンガルベースラインシステムに対して,+1.62と+2.54のBLEU点が大幅に改善された。
論文 参考訳(メタデータ) (2020-12-16T04:43:43Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。