論文の概要: Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives
- arxiv url: http://arxiv.org/abs/2206.02457v1
- Date: Mon, 6 Jun 2022 09:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:05:22.856724
- Title: Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives
- Title(参考訳): case-augmented positives と return negatives を用いた文埋め込みのコントラスト学習の改善
- Authors: Wei Wang, Liangzhu Ge, Jingqiao Zhang, Cheng Yang
- Abstract要約: 教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
- 参考スコア(独自算出の注目度): 17.90820242798732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Following SimCSE, contrastive learning based methods have achieved the
state-of-the-art (SOTA) performance in learning sentence embeddings. However,
the unsupervised contrastive learning methods still lag far behind the
supervised counterparts. We attribute this to the quality of positive and
negative samples, and aim to improve both. Specifically, for positive samples,
we propose switch-case augmentation to flip the case of the first letter of
randomly selected words in a sentence. This is to counteract the intrinsic bias
of pre-trained token embeddings to frequency, word cases and subwords. For
negative samples, we sample hard negatives from the whole dataset based on a
pre-trained language model. Combining the above two methods with SimCSE, our
proposed Contrastive learning with Augmented and Retrieved Data for Sentence
embedding (CARDS) method significantly surpasses the current SOTA on STS
benchmarks in the unsupervised setting.
- Abstract(参考訳): SimCSEの後、コントラスト学習に基づく手法は、文埋め込みの学習において最先端(SOTA)のパフォーマンスを達成した。
しかし、教師なしのコントラスト学習法は、教師付き学習法よりもはるかに遅れている。
これは正および負のサンプルの品質に起因し、両方の改善を目指している。
具体的には、正のサンプルに対して、文中のランダムに選択された単語の最初の文字の場合を反転させるスイッチケース拡張を提案する。
これは、事前訓練されたトークン埋め込みの固有のバイアスを周波数、単語ケース、サブワードに対処する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
上記の2つの手法をSimCSEと組み合わせて提案したContrastive Learning with Augmented and Retrieved Data for Sentence Embedding (CARDS) 法は、教師なし環境でのSTSベンチマークにおいて、現在のSOTAを大幅に上回っている。
関連論文リスト
- Contrastive Learning with Negative Sampling Correction [52.990001829393506]
PUCL(Positive-Unlabeled Contrastive Learning)という新しいコントラスト学習手法を提案する。
PUCLは生成した負のサンプルをラベルのないサンプルとして扱い、正のサンプルからの情報を用いて、対照的な損失のバイアスを補正する。
PUCLは一般的なコントラスト学習問題に適用でき、様々な画像やグラフの分類タスクにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-01-13T11:18:18Z) - Clustering-Aware Negative Sampling for Unsupervised Sentence
Representation [24.15096466098421]
ClusterNSは、教師なし文表現学習のためのコントラスト学習にクラスタ情報を組み込む新しい手法である。
修正K平均クラスタリングアルゴリズムを用いて、ハードネガティブを供給し、トレーニング中にバッチ内偽陰性を認識する。
論文 参考訳(メタデータ) (2023-05-17T02:06:47Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Improving Contrastive Learning of Sentence Embeddings from AI Feedback [43.56070504980024]
教師付きコントラスト学習は、人間のフィードバックラベルとより正確なサンプルペアを生成することができる。
提案手法は,大規模な事前学習言語モデルからのAIフィードバックを利用して,詳細なサンプル類似度スコアを持つサンプルペアを構築する。
実験結果から,本手法はいくつかの意味的テキスト類似性タスクにおいて,最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2023-05-03T06:26:13Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with
Soft Negative Samples [36.08601841321196]
ソフトな負のサンプルを埋め込んだ教師なし文のコントラスト学習を提案する。
SNCSEは意味的テキスト類似性タスクにおいて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2022-01-16T06:15:43Z) - Sentence Embeddings using Supervised Contrastive Learning [0.0]
教師付きコントラスト学習によって文埋め込みを構築する新しい手法を提案する。
SNLIデータ上のBERTを微調整し,教師付きクロスエントロピー損失と教師付きコントラスト損失を併用した。
論文 参考訳(メタデータ) (2021-06-09T03:30:29Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。