論文の概要: Instance Smoothed Contrastive Learning for Unsupervised Sentence
Embedding
- arxiv url: http://arxiv.org/abs/2305.07424v2
- Date: Thu, 18 May 2023 08:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 19:06:11.785750
- Title: Instance Smoothed Contrastive Learning for Unsupervised Sentence
Embedding
- Title(参考訳): 教師なし文埋め込みのためのインスタンス平滑化コントラスト学習
- Authors: Hongliang He, Junlei Zhang, Zhenzhong Lan, Yue Zhang
- Abstract要約: 特徴空間における埋め込みの境界を円滑にするためのIS-CSEを提案する。
我々は,標準的な意味テキスト類似性(STS)タスクについて評価し,平均78.30%,79.47%,77.73%,79.42%のスピアマン相関を達成した。
- 参考スコア(独自算出の注目度): 16.598732694215137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning-based methods, such as unsup-SimCSE, have achieved
state-of-the-art (SOTA) performances in learning unsupervised sentence
embeddings. However, in previous studies, each embedding used for contrastive
learning only derived from one sentence instance, and we call these embeddings
instance-level embeddings. In other words, each embedding is regarded as a
unique class of its own, whichmay hurt the generalization performance. In this
study, we propose IS-CSE (instance smoothing contrastive sentence embedding) to
smooth the boundaries of embeddings in the feature space. Specifically, we
retrieve embeddings from a dynamic memory buffer according to the semantic
similarity to get a positive embedding group. Then embeddings in the group are
aggregated by a self-attention operation to produce a smoothed instance
embedding for further analysis. We evaluate our method on standard semantic
text similarity (STS) tasks and achieve an average of 78.30%, 79.47%, 77.73%,
and 79.42% Spearman's correlation on the base of BERT-base, BERT-large,
RoBERTa-base, and RoBERTa-large respectively, a 2.05%, 1.06%, 1.16% and 0.52%
improvement compared to unsup-SimCSE.
- Abstract(参考訳): Unsup-SimCSEのような対照的な学習法は、教師なし文の埋め込みを学習する際に最先端(SOTA)のパフォーマンスを達成した。
しかし,従来の研究では,コントラスト学習に用いられた組込みは1文のインスタンスからのみ派生しており,これらの組込みをインスタンスレベルの組込みと呼ぶ。
言い換えれば、各埋め込みは独自の独自のクラスと見なされ、一般化性能を損なう可能性がある。
本研究では,特徴空間における埋め込みの境界を平滑化するために,is-cse(instance smoothing contrastive sentence embedded)を提案する。
具体的には、動的メモリバッファからセマンティックな類似性に応じて埋め込みを検索し、正の埋め込みグループを得る。
次に、グループ内の埋め込みを自己注意操作で集約し、スムーズなインスタンス埋め込みを生成し、さらなる分析を行う。
我々は,標準意味テキスト類似度(STS)タスクについて,平均78.30%,79.47%,77.73%,および79.42%のSpearmanのBERTベース,BERTベース,RoBERTaベース,RoBERTa-largeに対する相関を,Unsup-SimCSEと比較して2.05%,1.06%,1.16%,0.52%改善した。
関連論文リスト
- Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss [3.435381469869212]
本稿では,Sentence-BERT STSタスクのための革新的な回帰フレームワークを提案する。
これは2つの単純で効果的な損失関数、Translated ReLUとSmooth K2 Lossを提案する。
実験結果から,本手法は7つのSTSベンチマークにおいて有意な性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-06-08T02:52:43Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning
in the Debiasing Perspective [1.351603931922027]
様々なバイアスの影響を効果的に排除することは、高品質な文の埋め込みを学習するために重要であると論じる。
本稿では,これらのバイアスの影響を排除できる文埋め込みフレームワークDebCSEを提案する。
論文 参考訳(メタデータ) (2023-09-14T02:43:34Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives [17.90820242798732]
教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
論文 参考訳(メタデータ) (2022-06-06T09:46:12Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。