論文の概要: ESimCSE: Enhanced Sample Building Method for Contrastive Learning of
Unsupervised Sentence Embedding
- arxiv url: http://arxiv.org/abs/2109.04380v1
- Date: Thu, 9 Sep 2021 16:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:33:28.094564
- Title: ESimCSE: Enhanced Sample Building Method for Contrastive Learning of
Unsupervised Sentence Embedding
- Title(参考訳): ESimCSE:教師なし文埋め込みのコントラスト学習のための拡張サンプル構築法
- Authors: Xing Wu, Chaochen Gao, Liangjun Zang, Jizhong Han, Zhongyuan Wang,
Songlin Hu
- Abstract要約: 現在最先端の教師なし手法は教師なしSimCSE(Unsup-SimCSE)である
拡張Unsup-SimCSE(ESimCSE)と呼ばれる新しい文埋め込み法を開発した。
ESimCSE は BERT-base 上でのスピアマン相関の平均2.02% で最先端の unsup-SimCSE を上回っている。
- 参考スコア(独自算出の注目度): 41.09180639504244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has been attracting much attention for learning
unsupervised sentence embeddings. The current state-of-the-art unsupervised
method is the unsupervised SimCSE (unsup-SimCSE). Unsup-SimCSE takes dropout as
a minimal data augmentation method, and passes the same input sentence to a
pre-trained Transformer encoder (with dropout turned on) twice to obtain the
two corresponding embeddings to build a positive pair. As the length
information of a sentence will generally be encoded into the sentence
embeddings due to the usage of position embedding in Transformer, each positive
pair in unsup-SimCSE actually contains the same length information. And thus
unsup-SimCSE trained with these positive pairs is probably biased, which would
tend to consider that sentences of the same or similar length are more similar
in semantics. Through statistical observations, we find that unsup-SimCSE does
have such a problem. To alleviate it, we apply a simple repetition operation to
modify the input sentence, and then pass the input sentence and its modified
counterpart to the pre-trained Transformer encoder, respectively, to get the
positive pair. Additionally, we draw inspiration from the community of computer
vision and introduce a momentum contrast, enlarging the number of negative
pairs without additional calculations. The proposed two modifications are
applied on positive and negative pairs separately, and build a new sentence
embedding method, termed Enhanced Unsup-SimCSE (ESimCSE). We evaluate the
proposed ESimCSE on several benchmark datasets w.r.t the semantic text
similarity (STS) task. Experimental results show that ESimCSE outperforms the
state-of-the-art unsup-SimCSE by an average Spearman correlation of 2.02% on
BERT-base.
- Abstract(参考訳): 対照的な学習は教師なしの文埋め込みを学ぶことに多くの注目を集めている。
現在の最先端のunsupervisedメソッドはunsupervised SimCSE (unsup-SimCSE)である。
unsup-simcseは最小データ拡張法としてdropoutを取得し、同じ入力文を事前学習されたトランスフォーマエンコーダ(ドロップアウトオン)に2回渡し、対応する2つの埋め込みを取得して正のペアを構築する。
文の長さ情報は、Transformerにおける位置埋め込みの使用により、通常、文の埋め込みにエンコードされるので、unsup-SimCSEの各正対は同じ長さ情報を含んでいる。
したがって、これらの正のペアで訓練されたunsup-simcseはおそらく偏りがあり、同じまたは類似の長さの文の方が意味論においてより類似していると考える傾向がある。
統計観測により、Unsup-SimCSEにはそのような問題があることがわかった。
そこで我々は,入力文の修正に簡単な繰り返し操作を適用し,事前学習したTransformerエンコーダにそれぞれ入力文と修正文を渡して正のペアを得る。
さらに,コンピュータビジョンのコミュニティからインスピレーションを得て運動量コントラストを導入し,追加の計算をすることなく負のペア数を拡大する。
提案した2つの修正は、正と負のペアを別々に適用し、拡張Unsup-SimCSE(ESimCSE)と呼ばれる新しい文埋め込み法を構築する。
提案したESimCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果,ESimCSE は BERT-base 上でのスピアマン相関平均2.02% で最先端の unsup-SimCSE より優れていた。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives [17.90820242798732]
教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
論文 参考訳(メタデータ) (2022-06-06T09:46:12Z) - DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings [51.274478128525686]
DiffCSEは、文の埋め込みを学習するための教師なしのコントラスト学習フレームワークである。
実験の結果,教師なし文表現学習法では,DiffCSEは最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-21T17:32:01Z) - S-SimCSE: Sampled Sub-networks for Contrastive Learning of Sentence
Embedding [2.9894971434911266]
コントラスト学習は,文埋め込みの学習性能を向上させるために研究されている。
現在の最先端の手法はSimCSEであり、データ拡張法としてドロップアウトを取る。
S-SimCSEは、最先端のSimCSEをBERT$_base$で1%以上上回るパフォーマンス
論文 参考訳(メタデータ) (2021-11-23T09:52:45Z) - Smoothed Contrastive Learning for Unsupervised Sentence Embedding [41.09180639504244]
我々は、Gaussian Smoothing InfoNCE (GS-InfoNCE)と呼ばれるInfoNCE損失関数に基づく平滑化戦略を導入する。
GS-InfoNCEは、BERT-base、BERT-large、RoBERTa-base、RoBERTa-largeのベースで平均1.38%、0.72%、1.17%、0.28%のスピアマン相関によって、最先端のUnsup-SimCSEよりも優れている。
論文 参考訳(メタデータ) (2021-09-09T14:54:24Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。