論文の概要: SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with
Soft Negative Samples
- arxiv url: http://arxiv.org/abs/2201.05979v2
- Date: Wed, 19 Jan 2022 04:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 12:15:38.402038
- Title: SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with
Soft Negative Samples
- Title(参考訳): SNCSE:ソフトネガティブサンプルを用いた教師なし文のコントラスト学習
- Authors: Hao Wang, Yangguang Li, Zhen Huang, Yong Dou, Lingpeng Kong, Jing Shao
- Abstract要約: ソフトな負のサンプルを埋め込んだ教師なし文のコントラスト学習を提案する。
SNCSEは意味的テキスト類似性タスクにおいて最先端の性能を得ることができることを示す。
- 参考スコア(独自算出の注目度): 36.08601841321196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised sentence embedding aims to obtain the most appropriate embedding
for a sentence to reflect its semantic. Contrastive learning has been
attracting developing attention. For a sentence, current models utilize diverse
data augmentation methods to generate positive samples, while consider other
independent sentences as negative samples. Then they adopt InfoNCE loss to pull
the embeddings of positive pairs gathered, and push those of negative pairs
scattered. Although these models have made great progress on sentence
embedding, we argue that they may suffer from feature suppression. The models
fail to distinguish and decouple textual similarity and semantic similarity.
And they may overestimate the semantic similarity of any pairs with similar
textual regardless of the actual semantic difference between them. This is
because positive pairs in unsupervised contrastive learning come with similar
and even the same textual through data augmentation. To alleviate feature
suppression, we propose contrastive learning for unsupervised sentence
embedding with soft negative samples (SNCSE). Soft negative samples share
highly similar textual but have surely and apparently different semantic with
the original samples. Specifically, we take the negation of original sentences
as soft negative samples, and propose Bidirectional Margin Loss (BML) to
introduce them into traditional contrastive learning framework, which merely
involves positive and negative samples. Our experimental results show that
SNCSE can obtain state-of-the-art performance on semantic textual similarity
(STS) task with average Spearman's correlation coefficient of 78.97% on
BERTbase and 79.23% on RoBERTabase. Besides, we adopt rank-based error analysis
method to detect the weakness of SNCSE for future study.
- Abstract(参考訳): 教師なし文の埋め込みは、文の意味を反映する最も適切な埋め込みを得ることを目的としている。
対照的な学習は注目を浴びている。
文に対して、現在のモデルは様々なデータ拡張法を用いて正のサンプルを生成する一方、他の独立した文を負のサンプルとみなす。
その後、正のペアの埋め込みを引っ張り、負のペアの埋め込みを分散させるためにインフォデンスロスを採用する。
これらのモデルは文の埋め込みに大きな進歩をもたらしたが、機能抑制に悩まされる可能性がある。
モデルはテキストの類似性とセマンティックな類似性を区別し分離することができない。
そして、実際の意味の違いにかかわらず、類似したテキストを持つ任意のペアの意味的類似性を過大評価することができる。
これは、教師なしのコントラスト学習における正のペアは、データ拡張によって同じテキストでも類似しているためである。
特徴抑圧を緩和するために,ソフト・ネガティブ・サンプル(SNCSE)を組み込んだ教師なし文のコントラスト学習を提案する。
ソフトな負のサンプルは、非常に類似したテキストを共有しているが、明らかに元のサンプルと異なる意味を持っている。
具体的には、原文の否定をソフトな負のサンプルとみなし、正と負のサンプルのみを含む従来のコントラスト学習フレームワークにそれらを導入するために、双方向マージン損失(BML)を提案する。
実験の結果,sncseは,平均スピアマン相関係数78.97%,ロバータベース79.23%で意味的テキスト類似性(sts)タスクの最先端性能を得ることができた。
さらに,SNCSEの弱点を検出するために,ランクに基づく誤り解析手法を採用した。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Contrastive Learning with Negative Sampling Correction [52.990001829393506]
PUCL(Positive-Unlabeled Contrastive Learning)という新しいコントラスト学習手法を提案する。
PUCLは生成した負のサンプルをラベルのないサンプルとして扱い、正のサンプルからの情報を用いて、対照的な損失のバイアスを補正する。
PUCLは一般的なコントラスト学習問題に適用でき、様々な画像やグラフの分類タスクにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-01-13T11:18:18Z) - DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning
in the Debiasing Perspective [1.351603931922027]
様々なバイアスの影響を効果的に排除することは、高品質な文の埋め込みを学習するために重要であると論じる。
本稿では,これらのバイアスの影響を排除できる文埋め込みフレームワークDebCSEを提案する。
論文 参考訳(メタデータ) (2023-09-14T02:43:34Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives [17.90820242798732]
教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
論文 参考訳(メタデータ) (2022-06-06T09:46:12Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z) - Exploring the Impact of Negative Samples of Contrastive Learning: A Case
Study of Sentence Embedding [14.295787044482136]
文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル、すなわちMoCoSEを提案する。
我々は最大トレーサブル距離測定値を定義し、テキストが負のサンプルの履歴情報からどの程度の差があるかを学習する。
実験の結果,最大トレーサブル距離が一定の範囲にある場合に最もよい結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-26T08:29:25Z) - Similarity Contrastive Estimation for Self-Supervised Soft Contrastive
Learning [0.41998444721319206]
優れたデータ表現は、インスタンス間の関係、つまり意味的類似性を含んでいる、と我々は主張する。
類似性コントラスト推定(SCE)と呼ばれるインスタンス間の意味的類似性を用いたコントラスト学習の新しい定式化を提案する。
我々の訓練対象はソフトコントラスト学習と見なすことができる。
論文 参考訳(メタデータ) (2021-11-29T15:19:15Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。