論文の概要: Don't Forget Cheap Training Signals Before Building Unsupervised
Bilingual Word Embeddings
- arxiv url: http://arxiv.org/abs/2205.15713v1
- Date: Tue, 31 May 2022 12:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:53:59.302059
- Title: Don't Forget Cheap Training Signals Before Building Unsupervised
Bilingual Word Embeddings
- Title(参考訳): 教師なしのバイリンガルの単語埋め込みを作る前に、安いトレーニング信号を忘れるな
- Authors: Silvia Severini, Viktor Hangya, Masoud Jalili Sabet, Alexander Fraser,
Hinrich Sch\"utze
- Abstract要約: 我々は、教師なしBWE手法を開発する際には、容易にアクセスできる言語間信号が常に考慮されるべきであると主張している。
このような安価な信号はうまく動作し、遠隔言語対においてより複雑な教師なし手法により性能が向上することを示す。
この結果から,BWEを構築する際には,遠隔言語であっても,これらの学習信号を無視すべきでないことが示された。
- 参考スコア(独自算出の注目度): 64.06041300946517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilingual Word Embeddings (BWEs) are one of the cornerstones of cross-lingual
transfer of NLP models. They can be built using only monolingual corpora
without supervision leading to numerous works focusing on unsupervised BWEs.
However, most of the current approaches to build unsupervised BWEs do not
compare their results with methods based on easy-to-access cross-lingual
signals. In this paper, we argue that such signals should always be considered
when developing unsupervised BWE methods. The two approaches we find most
effective are: 1) using identical words as seed lexicons (which unsupervised
approaches incorrectly assume are not available for orthographically distinct
language pairs) and 2) combining such lexicons with pairs extracted by matching
romanized versions of words with an edit distance threshold. We experiment on
thirteen non-Latin languages (and English) and show that such cheap signals
work well and that they outperform using more complex unsupervised methods on
distant language pairs such as Chinese, Japanese, Kannada, Tamil, and Thai. In
addition, they are even competitive with the use of high-quality lexicons in
supervised approaches. Our results show that these training signals should not
be neglected when building BWEs, even for distant languages.
- Abstract(参考訳): Bilingual Word Embeddings (BWE) は、NLPモデルの言語間移動の基盤の1つである。
それらは単言語コーポラのみを使用して構築でき、監督されていないbweに焦点をあてた多くの作品に繋がる。
しかしながら、教師なしのBWEを構築するための現在のアプローチのほとんどは、容易にアクセス可能な言語間信号に基づく手法と比較していない。
本稿では,教師なしbwe法を開発する場合,その信号は常に考慮すべきであると主張する。
最も効果的なアプローチは次の2つです。
1)同一語をシードレキシコン(非教師的アプローチが誤って想定している)として用いて、そして
2)このような辞書と単語のローマ字版と編集距離閾値を一致させて抽出したペアを組み合わせる。
13の非ラテン語(および英語)について実験を行い,そのような安価な信号が,中国語,日本語,カンナダ語,タミル語,タイ語などの遠隔言語対において,より複雑な教師なし手法を用いた場合よりも優れていることを示す。
さらに、彼らは監督されたアプローチにおける高品質のレキシコンの使用と競合する。
この結果から,BWEを構築する際には,遠隔言語であっても,これらの学習信号を無視すべきでないことが示された。
関連論文リスト
- VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - Globetrotter: Unsupervised Multilingual Translation from Visual
Alignment [24.44204156935044]
視覚的モダリティを用いて複数の言語を整列させるフレームワークを提案する。
言語と画像のクロスモーダルアライメントを推定し,この推定値を用いて言語間表現の学習を指導する。
私たちの言語表現は、1つのステージを持つ1つのモデルで共同で訓練されます。
論文 参考訳(メタデータ) (2020-12-08T18:50:40Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。