論文の概要: Clustering-Aware Negative Sampling for Unsupervised Sentence
Representation
- arxiv url: http://arxiv.org/abs/2305.09892v1
- Date: Wed, 17 May 2023 02:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:53:50.617035
- Title: Clustering-Aware Negative Sampling for Unsupervised Sentence
Representation
- Title(参考訳): 教師なし文表現のためのクラスタリング対応否定サンプリング
- Authors: Jinghao Deng and Fanqi Wan and Tao Yang and Xiaojun Quan and Rui Wang
- Abstract要約: ClusterNSは、教師なし文表現学習のためのコントラスト学習にクラスタ情報を組み込む新しい手法である。
修正K平均クラスタリングアルゴリズムを用いて、ハードネガティブを供給し、トレーニング中にバッチ内偽陰性を認識する。
- 参考スコア(独自算出の注目度): 24.15096466098421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning has been widely studied in sentence representation
learning. However, earlier works mainly focus on the construction of positive
examples, while in-batch samples are often simply treated as negative examples.
This approach overlooks the importance of selecting appropriate negative
examples, potentially leading to a scarcity of hard negatives and the inclusion
of false negatives. To address these issues, we propose ClusterNS
(Clustering-aware Negative Sampling), a novel method that incorporates cluster
information into contrastive learning for unsupervised sentence representation
learning. We apply a modified K-means clustering algorithm to supply hard
negatives and recognize in-batch false negatives during training, aiming to
solve the two issues in one unified framework. Experiments on semantic textual
similarity (STS) tasks demonstrate that our proposed ClusterNS compares
favorably with baselines in unsupervised sentence representation learning. Our
code has been made publicly available.
- Abstract(参考訳): 対照学習は文表現学習において広く研究されている。
しかし、初期の研究は主に正の例の構築に焦点が当てられ、バッチ内のサンプルはしばしば単に負の例として扱われる。
このアプローチは適切なネガティブな例を選択することの重要性を見落とし、ハードネガティブの不足と偽陰性の含みにつながる可能性がある。
そこで本研究では,教師なし文表現学習のためのコントラスト学習にクラスタ情報を組み込む新しい手法であるclusterns (clustering-aware negative sampling)を提案する。
1つの統一フレームワークにおける2つの問題を解決するために,修正k-meansクラスタリングアルゴリズムを適用し,ハードネガの供給とトレーニング中のバッチ内偽ネガの認識を行う。
意味的テキスト類似性(STS)タスクの実験により,提案したClusterNSは教師なし文表現学習のベースラインと良好に比較できることを示した。
私たちのコードは公開されています。
関連論文リスト
- Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives [17.90820242798732]
教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
論文 参考訳(メタデータ) (2022-06-06T09:46:12Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。