論文の概要: A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings
- arxiv url: http://arxiv.org/abs/2001.06381v2
- Date: Wed, 8 Sep 2021 15:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 12:39:26.139359
- Title: A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings
- Title(参考訳): モノリンガルおよびクロスリンガルメタエンベディングのための共通意味空間
- Authors: Iker Garc\'ia-Ferrero, Rodrigo Agerri, German Rigau
- Abstract要約: 本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
- 参考スコア(独自算出の注目度): 10.871587311621974
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a new technique for creating monolingual and
cross-lingual meta-embeddings. Our method integrates multiple word embeddings
created from complementary techniques, textual sources, knowledge bases and
languages. Existing word vectors are projected to a common semantic space using
linear transformations and averaging. With our method the resulting
meta-embeddings maintain the dimensionality of the original embeddings without
losing information while dealing with the out-of-vocabulary problem. An
extensive empirical evaluation demonstrates the effectiveness of our technique
with respect to previous work on various intrinsic and extrinsic multilingual
evaluations, obtaining competitive results for Semantic Textual Similarity and
state-of-the-art performance for word similarity and POS tagging (English and
Spanish). The resulting cross-lingual meta-embeddings also exhibit excellent
cross-lingual transfer learning capabilities. In other words, we can leverage
pre-trained source embeddings from a resource-rich language in order to improve
the word representations for under-resourced languages.
- Abstract(参考訳): 本稿では,モノリンガルおよびクロスリンガルメタエンベディングを作成する新しい手法を提案する。
本手法は,補完技術,テキストソース,知識ベース,言語から生成した複数の単語の埋め込みを統合する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
本手法では,メタ埋め込みは,語彙外問題に対処しながら情報を失うことなく,元の埋め込みの次元性を維持する。
本手法の有効性を実験的に検証し, 単語類似性やPOSタグ付け(英語とスペイン語)に対するセマンティックテキスト類似性(Semantic Textual similarity)と最先端パフォーマンス(State-of-the-art Performance)の競争結果を得た。
結果として得られる言語間メタエンベディングは、優れた言語間伝達学習能力を示す。
言い換えれば、リソース豊富な言語から事前学習されたソース埋め込みを利用して、未リソース言語の表現を改善することができる。
関連論文リスト
- Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。