論文の概要: EASE: Entity-Aware Contrastive Learning of Sentence Embedding
- arxiv url: http://arxiv.org/abs/2205.04260v1
- Date: Mon, 9 May 2022 13:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 15:25:30.139029
- Title: EASE: Entity-Aware Contrastive Learning of Sentence Embedding
- Title(参考訳): EASE: エンティティを意識した文埋め込みのコントラスト学習
- Authors: Sosuke Nishikawa, Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka, Isao
Echizen
- Abstract要約: EASEは文とその関連エンティティ間の対照的な学習を通して文の埋め込みを学習する新しい方法である。
EASEは英語のセマンティックテキスト類似性(STS)と短いテキストクラスタリング(STC)タスクにおいて、競合的あるいはより良いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 37.7055989762122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EASE, a novel method for learning sentence embeddings via
contrastive learning between sentences and their related entities. The
advantage of using entity supervision is twofold: (1) entities have been shown
to be a strong indicator of text semantics and thus should provide rich
training signals for sentence embeddings; (2) entities are defined
independently of languages and thus offer useful cross-lingual alignment
supervision. We evaluate EASE against other unsupervised models both in
monolingual and multilingual settings. We show that EASE exhibits competitive
or better performance in English semantic textual similarity (STS) and short
text clustering (STC) tasks and it significantly outperforms baseline methods
in multilingual settings on a variety of tasks. Our source code, pre-trained
models, and newly constructed multilingual STC dataset are available at
https://github.com/studio-ousi a/ease.
- Abstract(参考訳): 文とその関連エンティティ間のコントラスト学習を通じて文埋め込みを学習する新しい方法であるEASEを提案する。
エンティティ管理の利点は2つある:(1)エンティティはテキストセマンティクスの強力な指標であることが示され、文の埋め込みのためのリッチなトレーニング信号を提供するべきである;(2)エンティティは言語とは独立して定義され、それによって言語間アライメント管理に有用なものを提供する。
単言語と多言語の両方で、他の教師なしモデルに対してEASEを評価する。
EASE は英語のセマンティックテキスト類似性 (STS) と短文クラスタリング (STC) タスクにおいて, 競争力あるいは優れた性能を示し, 各種タスクの多言語設定において, ベースライン手法を著しく上回っていることを示す。
ソースコード、事前トレーニングされたモデル、および新しく構築された多言語stcデータセットは、https://github.com/studio-ousi a/easeで利用可能です。
関連論文リスト
- Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bilingual alignment transfers to multilingual alignment for unsupervised
parallel text mining [3.4519649635864584]
本研究は、ペアまたはペアなしのバイリンガルテキストを用いた言語間表現の学習手法を提案する。
我々は、言語間アライメント戦略は転送可能であり、2つの言語のみをアライメントするように訓練されたモデルは、多言語的によりアライメントされた表現を符号化できると仮定する。
論文 参考訳(メタデータ) (2021-04-15T17:51:22Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - An Unsupervised Language-Independent Entity Disambiguation Method and
its Evaluation on the English and Persian Languages [3.8498574327875943]
Unsupervised Language-Independent Entity Disambiguation (ULIED)は、名前付きエンティティを曖昧にリンクするための新しいアプローチである。
異なる英語エンティティリンクデータセット上でのULIEDの評価と、利用可能な唯一のペルシアのデータセットは、ほとんどのケースにおいて、ULIEDが最先端の教師なし多言語アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-31T06:41:55Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。