論文の概要: EMMA-X: An EM-like Multilingual Pre-training Algorithm for Cross-lingual
Representation Learning
- arxiv url: http://arxiv.org/abs/2310.17233v1
- Date: Thu, 26 Oct 2023 08:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:21:16.391619
- Title: EMMA-X: An EM-like Multilingual Pre-training Algorithm for Cross-lingual
Representation Learning
- Title(参考訳): EMMA-X: 言語間表現学習のためのEM型多言語事前学習アルゴリズム
- Authors: Ping Guo, Xiangpeng Wei, Yue Hu, Baosong Yang, Dayiheng Liu, Fei
Huang, Jun Xie
- Abstract要約: EMMAX: (X)Crosslingual Universalsを学習するためのEM-like Multilingual Pretrainingアルゴリズムを提案する。
EMMAXは、言語間表現学習タスクと、EMフレームワーク内の余分な意味関係予測タスクを統一する。
- 参考スコア(独自算出の注目度): 74.60554112841307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressing universal semantics common to all languages is helpful in
understanding the meanings of complex and culture-specific sentences. The
research theme underlying this scenario focuses on learning universal
representations across languages with the usage of massive parallel corpora.
However, due to the sparsity and scarcity of parallel data, there is still a
big challenge in learning authentic ``universals'' for any two languages. In
this paper, we propose EMMA-X: an EM-like Multilingual pre-training Algorithm,
to learn (X)Cross-lingual universals with the aid of excessive multilingual
non-parallel data. EMMA-X unifies the cross-lingual representation learning
task and an extra semantic relation prediction task within an EM framework.
Both the extra semantic classifier and the cross-lingual sentence encoder
approximate the semantic relation of two sentences, and supervise each other
until convergence. To evaluate EMMA-X, we conduct experiments on XRETE, a newly
introduced benchmark containing 12 widely studied cross-lingual tasks that
fully depend on sentence-level representations. Results reveal that EMMA-X
achieves state-of-the-art performance. Further geometric analysis of the built
representation space with three requirements demonstrates the superiority of
EMMA-X over advanced models.
- Abstract(参考訳): すべての言語に共通する普遍意味論を表現することは、複雑で文化固有の文の意味を理解するのに役立つ。
このシナリオの基礎となる研究テーマは、巨大な並列コーパスを用いて言語間の普遍表現を学ぶことである。
しかし、並列データのスパーシティと不足のため、2つの言語で本物の ``universals'' を学ぶことは依然として大きな課題である。
本稿では,EM-like Multilingual pre-training Algorithm(EMMA-X)を提案し,過剰な多言語非並列データを用いて(X)Cross-lingual Universalsを学習する。
EMMA-Xは、言語間表現学習タスクと、EMフレームワーク内の追加の意味関係予測タスクを統合する。
余分な意味分類器と言語間文エンコーダは2つの文の意味関係を近似し、収束するまで相互に監督する。
EMMA-Xを評価するために,文レベルの表現に完全に依存する12の言語間タスクを新たに導入したXRETEの実験を行った。
その結果,EMMA-Xは最先端の性能を達成することがわかった。
3つの要求を持つ構築表現空間のさらなる幾何学的解析は、先進モデルよりもemma-xが優れていることを示している。
関連論文リスト
- VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - SimCSum: Joint Learning of Simplification and Cross-lingual
Summarization for Cross-lingual Science Journalism [8.187718963808484]
言語間科学ジャーナリズムは、専門家でない聴衆のために、ソース言語とは異なる科学記事の一般的な科学物語を生成する。
我々は,2つのハイレベルなNLPタスク,単純化と言語間要約を併用して,言語間要約生成を改善する。
SimCSumは、2つの非合成言語間科学データセットに対する最先端技術よりも統計的に有意な改善を示している。
論文 参考訳(メタデータ) (2023-04-04T08:24:22Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Multi-level Distillation of Semantic Knowledge for Pre-training
Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。
我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。
我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-02T15:23:13Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - On Learning Universal Representations Across Languages [37.555675157198145]
文レベルの表現を学習するための既存のアプローチを拡張し、言語間理解と生成の有効性を示す。
具体的には,複数の言語に分散した並列文の普遍表現を学習するための階層型コントラスト学習(HiCTL)手法を提案する。
我々は、XTREMEと機械翻訳という2つの難解な言語間タスクについて評価を行う。
論文 参考訳(メタデータ) (2020-07-31T10:58:39Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。