論文の概要: Aligning Cross-lingual Sentence Representations with Dual Momentum
Contrast
- arxiv url: http://arxiv.org/abs/2109.00253v1
- Date: Wed, 1 Sep 2021 08:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 16:35:30.384827
- Title: Aligning Cross-lingual Sentence Representations with Dual Momentum
Contrast
- Title(参考訳): Dual Momentum Contrastを用いた言語間文のアライメント
- Authors: Liang Wang, Wei Zhao, Jingming Liu
- Abstract要約: 本稿では,異なる言語からの文表現を,単純なドット積で意味的類似性を計算可能な統合埋め込み空間に整合させることを提案する。
実験結果が示すように,本モデルが生成した文表現は,複数のタスクにおいて新たな最先端を実現する。
- 参考スコア(独自算出の注目度): 12.691501386854094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose to align sentence representations from different
languages into a unified embedding space, where semantic similarities (both
cross-lingual and monolingual) can be computed with a simple dot product.
Pre-trained language models are fine-tuned with the translation ranking task.
Existing work (Feng et al., 2020) uses sentences within the same batch as
negatives, which can suffer from the issue of easy negatives. We adapt MoCo (He
et al., 2020) to further improve the quality of alignment. As the experimental
results show, the sentence representations produced by our model achieve the
new state-of-the-art on several tasks, including Tatoeba en-zh similarity
search (Artetxe and Schwenk, 2019b), BUCC en-zh bitext mining, and semantic
textual similarity on 7 datasets.
- Abstract(参考訳): 本稿では,異なる言語からの文表現を,意味的類似性(言語間・モノリンガルの両方)を単純なドット積で計算できる統合埋め込み空間に整合させることを提案する。
事前訓練された言語モデルは翻訳ランキングタスクで微調整される。
既存の作業(Feng et al., 2020)は、ネガと同じバッチ内で文を使用し、簡単なネガの問題に悩まされる可能性がある。
MoCo(He et al., 2020)を適応して、アライメントの品質をさらに向上します。
実験結果から,本モデルが生成した文表現は,Tatoeba en-zh類似性探索(Artetxe, Schwenk, 2019b),BUCC en-zh bitextマイニング,セマンティックテキスト類似性など,いくつかのタスクにおいて新たな最先端性を実現する。
関連論文リスト
- Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。