論文の概要: Lightweight Cross-Lingual Sentence Representation Learning
- arxiv url: http://arxiv.org/abs/2105.13856v1
- Date: Fri, 28 May 2021 14:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:53:17.491515
- Title: Lightweight Cross-Lingual Sentence Representation Learning
- Title(参考訳): 軽量言語間文表現学習
- Authors: Zhuoyuan Mao, Prakhar Gupta, Chenhui Chu, Martin Jaggi and Sadao
Kurohashi
- Abstract要約: メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
- 参考スコア(独自算出の注目度): 57.9365829513914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale models for learning fixed-dimensional cross-lingual sentence
representations like Large-scale models for learning fixed-dimensional
cross-lingual sentence representations like LASER (Artetxe and Schwenk, 2019b)
lead to significant improvement in performance on downstream tasks. However,
further increases and modifications based on such large-scale models are
usually impractical due to memory limitations. In this work, we introduce a
lightweight dual-transformer architecture with just 2 layers for generating
memory-efficient cross-lingual sentence representations. We explore different
training tasks and observe that current cross-lingual training tasks leave a
lot to be desired for this shallow architecture. To ameliorate this, we propose
a novel cross-lingual language model, which combines the existing single-word
masked language model with the newly proposed cross-lingual token-level
reconstruction task. We further augment the training task by the introduction
of two computationally-lite sentence-level contrastive learning tasks to
enhance the alignment of cross-lingual sentence representation space, which
compensates for the learning bottleneck of the lightweight transformer for
generative tasks. Our comparisons with competing models on cross-lingual
sentence retrieval and multilingual document classification confirm the
effectiveness of the newly proposed training tasks for a shallow model.
- Abstract(参考訳): LASER (Artetxe and Schwenk, 2019b) のような固定次元の言語間文表現を学習する大規模モデルのような、固定次元の言語間文表現を学習する大規模モデルは、下流タスクのパフォーマンスを著しく向上させる。
しかし、このような大規模モデルに基づくさらなる増加と修正は通常、メモリ制限のため実行不可能である。
本研究では,メモリ効率の高いクロス言語文表現を生成するために,2層のみを有する軽量なデュアルトランスフォーマアーキテクチャを提案する。
異なるトレーニングタスクを探索し、現在の言語間トレーニングタスクが、この浅いアーキテクチャに望まれていることを観察する。
これを改善するために,既存のシングルワードマスキング言語モデルと新たに提案したクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
さらに, 軽量トランスフォーマの学習ボトルネックを補う言語間表現空間のアライメントを強化するために, 2つの計算的ライトな文レベルのコントラスト学習タスクを導入することで, 学習タスクをさらに強化する。
言語間文検索と多言語文書分類の競合モデルとの比較により,新たに提案した訓練課題の有効性を確認した。
関連論文リスト
- Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - Multi-Level Contrastive Learning for Cross-Lingual Alignment [35.33431650608965]
マルチリンガルBERT(mBERT)のような言語間事前学習モデルは、様々な言語間下流のNLPタスクにおいて大きな性能を発揮している。
本稿では,事前学習モデルの言語間能力の向上を図るために,マルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-26T07:14:20Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。