論文の概要: EASE: Entity-Aware Contrastive Learning of Sentence Embedding
- arxiv url: http://arxiv.org/abs/2205.04260v1
- Date: Mon, 9 May 2022 13:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 15:25:30.139029
- Title: EASE: Entity-Aware Contrastive Learning of Sentence Embedding
- Title(参考訳): EASE: エンティティを意識した文埋め込みのコントラスト学習
- Authors: Sosuke Nishikawa, Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka, Isao
Echizen
- Abstract要約: EASEは文とその関連エンティティ間の対照的な学習を通して文の埋め込みを学習する新しい方法である。
EASEは英語のセマンティックテキスト類似性(STS)と短いテキストクラスタリング(STC)タスクにおいて、競合的あるいはより良いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 37.7055989762122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EASE, a novel method for learning sentence embeddings via
contrastive learning between sentences and their related entities. The
advantage of using entity supervision is twofold: (1) entities have been shown
to be a strong indicator of text semantics and thus should provide rich
training signals for sentence embeddings; (2) entities are defined
independently of languages and thus offer useful cross-lingual alignment
supervision. We evaluate EASE against other unsupervised models both in
monolingual and multilingual settings. We show that EASE exhibits competitive
or better performance in English semantic textual similarity (STS) and short
text clustering (STC) tasks and it significantly outperforms baseline methods
in multilingual settings on a variety of tasks. Our source code, pre-trained
models, and newly constructed multilingual STC dataset are available at
https://github.com/studio-ousia/ease.
- Abstract(参考訳): 文とその関連エンティティ間のコントラスト学習を通じて文埋め込みを学習する新しい方法であるEASEを提案する。
エンティティ管理の利点は2つある:(1)エンティティはテキストセマンティクスの強力な指標であることが示され、文の埋め込みのためのリッチなトレーニング信号を提供するべきである;(2)エンティティは言語とは独立して定義され、それによって言語間アライメント管理に有用なものを提供する。
単言語と多言語の両方で、他の教師なしモデルに対してEASEを評価する。
EASE は英語のセマンティックテキスト類似性 (STS) と短文クラスタリング (STC) タスクにおいて, 競争力あるいは優れた性能を示し, 各種タスクの多言語設定において, ベースライン手法を著しく上回っていることを示す。
ソースコード、事前トレーニングされたモデル、および新しく構築された多言語stcデータセットは、https://github.com/studio-ousia/easeで利用可能です。
関連論文リスト
- Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning [5.5119571570277826]
言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-07-06T11:56:41Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Multilingual Entity and Relation Extraction from Unified to
Language-specific Training [29.778332361215636]
エンティティと関係抽出タスクの既存のアプローチは、主に英語のコーパスに焦点を当て、他の言語を無視している。
言語干渉を軽減するために,2段階の多言語学習手法と,Multilingual Entity and Relation extract framework (mERE) と呼ばれるジョイントモデルを提案する。
本手法はモノリンガル法と多言語ベースライン法の両方に優れる。
論文 参考訳(メタデータ) (2023-01-11T12:26:53Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。