論文の概要: DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning
in the Debiasing Perspective
- arxiv url: http://arxiv.org/abs/2309.07396v1
- Date: Thu, 14 Sep 2023 02:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:28:36.965572
- Title: DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning
in the Debiasing Perspective
- Title(参考訳): DebCSE: Debiasing の視点から学習を取り入れた教師なしコントラスト文の再考
- Authors: Pu Miao and Zeyao Du and Junlin Zhang
- Abstract要約: 様々なバイアスの影響を効果的に排除することは、高品質な文の埋め込みを学習するために重要であると論じる。
本稿では,これらのバイアスの影響を排除できる文埋め込みフレームワークDebCSEを提案する。
- 参考スコア(独自算出の注目度): 1.351603931922027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several prior studies have suggested that word frequency biases can cause the
Bert model to learn indistinguishable sentence embeddings. Contrastive learning
schemes such as SimCSE and ConSERT have already been adopted successfully in
unsupervised sentence embedding to improve the quality of embeddings by
reducing this bias. However, these methods still introduce new biases such as
sentence length bias and false negative sample bias, that hinders model's
ability to learn more fine-grained semantics. In this paper, we reexamine the
challenges of contrastive sentence embedding learning from a debiasing
perspective and argue that effectively eliminating the influence of various
biases is crucial for learning high-quality sentence embeddings. We think all
those biases are introduced by simple rules for constructing training data in
contrastive learning and the key for contrastive learning sentence embedding is
to mimic the distribution of training data in supervised machine learning in
unsupervised way. We propose a novel contrastive framework for sentence
embedding, termed DebCSE, which can eliminate the impact of these biases by an
inverse propensity weighted sampling method to select high-quality positive and
negative pairs according to both the surface and semantic similarity between
sentences. Extensive experiments on semantic textual similarity (STS)
benchmarks reveal that DebCSE significantly outperforms the latest
state-of-the-art models with an average Spearman's correlation coefficient of
80.33% on BERTbase.
- Abstract(参考訳): いくつかの先行研究は、単語の頻度バイアスがbertモデルに区別がつかない文埋め込みを学習させる可能性を示唆している。
SimCSEやConSERTのような対照的な学習スキームは、このバイアスを減らして埋め込みの質を向上させるために、教師なしの文埋め込みにおいて既にうまく採用されている。
しかし、これらの手法は、モデルがよりきめ細かいセマンティクスを学ぶ能力を妨げる、文長バイアスや偽陰性サンプルバイアスのような新しいバイアスを導入している。
本稿では, 文章埋込学習の難しさを再検討し, 様々なバイアスの影響を効果的に排除することが, 高品質な文章埋込学習に不可欠であると主張している。
これらのバイアスはすべて、対照的な学習でトレーニングデータを構築するための単純なルールによって導入され、対照的な学習文の埋め込みの鍵は教師なし機械学習におけるトレーニングデータの分布を模倣することである。
文の表面および意味的類似性の両方に応じて高品質な正対と負対を選択する逆正重み付きサンプリング法により,これらのバイアスの影響を排除できる文埋め込みのための新しいコントラストフレームワークDabCSEを提案する。
セマンティックテキスト類似性(STS)ベンチマークの広範な実験により、DebCSEは、BERTbase上で平均スピアマンの相関係数が80.33%の最新の最先端モデルよりも著しく優れていることが明らかになった。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Improving Contrastive Learning of Sentence Embeddings with Focal-InfoNCE [13.494159547236425]
本研究では、SimCSEとハードネガティブマイニングを組み合わせた教師なしのコントラスト学習フレームワークを提案する。
提案した焦点情報処理関数は、対照的な目的に自己対応変調項を導入し、容易な負に関連付けられた損失を減らし、強負に焦点を絞ったモデルを促進する。
論文 参考訳(メタデータ) (2023-10-10T18:15:24Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Contrastive Learning of Sentence Embeddings from Scratch [26.002876719243464]
文の埋め込みを合成データで訓練するコントラスト学習フレームワークであるSynCSEを提案する。
具体的には、大規模な言語モデルを用いて、コントラスト学習に必要なデータサンプルを合成する。
SynCSE-partialとSynCSE-scratchの両方が教師なしベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-05-24T11:56:21Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives [17.90820242798732]
教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
論文 参考訳(メタデータ) (2022-06-06T09:46:12Z) - DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings [51.274478128525686]
DiffCSEは、文の埋め込みを学習するための教師なしのコントラスト学習フレームワークである。
実験の結果,教師なし文表現学習法では,DiffCSEは最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-21T17:32:01Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - PCL: Peer-Contrastive Learning with Diverse Augmentations for
Unsupervised Sentence Embeddings [69.87899694963251]
本稿では,多彩な拡張を伴う新しいピアコントラスト学習(PCL)を提案する。
PCLは、教師なし文の埋め込みのために、グループレベルで様々な対照的な正と負を構成する。
PCLはピア陽性のコントラストとピアネットワークの協調が可能である。
論文 参考訳(メタデータ) (2022-01-28T13:02:41Z) - SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with
Soft Negative Samples [36.08601841321196]
ソフトな負のサンプルを埋め込んだ教師なし文のコントラスト学習を提案する。
SNCSEは意味的テキスト類似性タスクにおいて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2022-01-16T06:15:43Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。