論文の概要: SimCSE: Simple Contrastive Learning of Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2104.08821v1
- Date: Sun, 18 Apr 2021 11:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:36:26.552304
- Title: SimCSE: Simple Contrastive Learning of Sentence Embeddings
- Title(参考訳): SimCSE: 文埋め込みの単純なコントラスト学習
- Authors: Tianyu Gao, Xingcheng Yao, Danqi Chen
- Abstract要約: 本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
- 参考スコア(独自算出の注目度): 10.33373737281907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents SimCSE, a simple contrastive learning framework that
greatly advances the state-of-the-art sentence embeddings. We first describe an
unsupervised approach, which takes an input sentence and predicts itself in a
contrastive objective, with only standard dropout used as noise. This simple
method works surprisingly well, performing on par with previous supervised
counterparts. We hypothesize that dropout acts as minimal data augmentation and
removing it leads to a representation collapse. Then, we draw inspiration from
the recent success of learning sentence embeddings from natural language
inference (NLI) datasets and incorporate annotated pairs from NLI datasets into
contrastive learning by using "entailment" pairs as positives and
"contradiction" pairs as hard negatives. We evaluate SimCSE on standard
semantic textual similarity (STS) tasks, and our unsupervised and supervised
models using BERT-base achieve an average of 74.5% and 81.6% Spearman's
correlation respectively, a 7.9 and 4.6 points improvement compared to previous
best results. We also show that contrastive learning theoretically regularizes
pre-trained embeddings' anisotropic space to be more uniform, and it better
aligns positive pairs when supervised signals are available.
- Abstract(参考訳): 本稿では,最先端の文埋め込みを大幅に進歩させるシンプルなコントラスト学習フレームワークであるSimCSEを提案する。
まず, 標準ドロップアウトのみを雑音として使用しながら, 入力文を取り込んでコントラスト目的に自身を予測する教師なしアプローチについて述べる。
この単純な方法は驚くほどうまく機能し、以前の教師付きメソッドと同等に動作します。
ドロップアウトは最小限のデータ拡張として機能し、削除することで表現の崩壊につながると仮定する。
次に,自然言語推論(NLI)データセットからの文埋め込みの成功から着想を得て,NLIデータセットからの注釈付きペアを,正の"エンタテメント"ペアと強の"コントラディション"ペアを用いて比較学習に取り入れた。
我々は,SimCSEを標準的な意味的テキスト類似性(STS)タスクで評価し,BERTベースを用いた教師なしモデルと教師なしモデルでは,それぞれ74.5%と81.6%のSpearmanの相関が得られた。
また, コントラスト学習は, 事前学習した埋め込みの異方性空間をより均一に規則化し, 教師付き信号が利用できる場合の正のペアの整合性も向上することを示した。
関連論文リスト
- DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning
in the Debiasing Perspective [1.351603931922027]
様々なバイアスの影響を効果的に排除することは、高品質な文の埋め込みを学習するために重要であると論じる。
本稿では,これらのバイアスの影響を排除できる文埋め込みフレームワークDebCSEを提案する。
論文 参考訳(メタデータ) (2023-09-14T02:43:34Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning [14.028140579482688]
SimCSEは、報告されているように、トリミング、単語削除、同義語置換といった個別の増強を驚くほど支配している。
我々は,句読点挿入,モーダル動詞,二重否定の3つの簡易かつ効果的な離散文拡張手法を開発した。
その結果,提案手法の優越性は一貫して向上した。
論文 参考訳(メタデータ) (2022-10-08T08:07:47Z) - Non-contrastive representation learning for intervals from well logs [58.70164460091879]
石油・ガス産業における表現学習問題は、ログデータに基づく表現を一定間隔で提供するモデルを構築することを目的としている。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
論文 参考訳(メタデータ) (2022-09-28T13:27:10Z) - Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives [17.90820242798732]
教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
論文 参考訳(メタデータ) (2022-06-06T09:46:12Z) - SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with
Soft Negative Samples [36.08601841321196]
ソフトな負のサンプルを埋め込んだ教師なし文のコントラスト学習を提案する。
SNCSEは意味的テキスト類似性タスクにおいて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2022-01-16T06:15:43Z) - ESimCSE: Enhanced Sample Building Method for Contrastive Learning of
Unsupervised Sentence Embedding [41.09180639504244]
現在最先端の教師なし手法は教師なしSimCSE(Unsup-SimCSE)である
拡張Unsup-SimCSE(ESimCSE)と呼ばれる新しい文埋め込み法を開発した。
ESimCSE は BERT-base 上でのスピアマン相関の平均2.02% で最先端の unsup-SimCSE を上回っている。
論文 参考訳(メタデータ) (2021-09-09T16:07:31Z) - Provable Guarantees for Self-Supervised Deep Learning with Spectral
Contrastive Loss [72.62029620566925]
自己教師型学習の最近の研究は、対照的な学習パラダイムを頼りに、最先端の技術の進歩を遂げている。
我々の研究は、正の対の条件的独立性を仮定することなく、対照的な学習を分析する。
本稿では,人口増分グラフ上でスペクトル分解を行う損失を提案し,コントラスト学習目的として簡潔に記述することができる。
論文 参考訳(メタデータ) (2021-06-08T07:41:02Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。