論文の概要: SDA: Simple Discrete Augmentation for Contrastive Sentence
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.03963v1
- Date: Sat, 8 Oct 2022 08:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:26:04.858958
- Title: SDA: Simple Discrete Augmentation for Contrastive Sentence
Representation Learning
- Title(参考訳): SDA:コントラスト表現学習のための簡易離散化
- Authors: Zhenyu Mao, Dongsheng Zhu, Jinghui Lu, Rui Zhao, Fei Tan
- Abstract要約: 本稿では, 句読点挿入法, 肯定補助法, 二重否定法の3つの簡易かつ効果的な離散文拡張法を提案する。
文をランダムに修正する従来の拡張法とは異なり、我々の拡張規則は意味論的に一貫性があり文法的に正しい文を生成するためによく設計されている。
- 参考スコア(独自算出の注目度): 9.49845759829947
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Contrastive learning methods achieve state-of-the-art results in unsupervised
sentence representation learning. Although playing essential roles in
contrastive learning, data augmentation methods applied on sentences have not
been fully explored. Current SOTA method SimCSE utilizes a simple dropout
mechanism as continuous augmentation which outperforms discrete augmentations
such as cropping, word deletion and synonym replacement. To understand the
underlying rationales, we revisit existing approaches and attempt to
hypothesize the desiderata of reasonable data augmentation methods: balance of
semantic consistency and expression diversity. Based on the hypothesis, we
propose three simple yet effective discrete sentence augmentation methods,
i.e., punctuation insertion, affirmative auxiliary and double negation. The
punctuation marks, auxiliaries and negative words act as minimal noises in
lexical level to produce diverse sentence expressions. Unlike traditional
augmentation methods which randomly modify the sentence, our augmentation rules
are well designed for generating semantically consistent and grammatically
correct sentences. We conduct extensive experiments on both English and Chinese
semantic textual similarity datasets. The results show the robustness and
effectiveness of the proposed methods.
- Abstract(参考訳): コントラスト学習は教師なし文表現学習において最先端の結果を得る。
コントラスト学習において重要な役割を担っているが、文に適用されるデータ拡張方法は十分に研究されていない。
現在のSOTA法であるSimCSEは、トリミング、単語削除、同義語置換といった離散的な拡張よりも優れた、連続的な拡張として単純なドロップアウト機構を利用する。
そこで我々は,既存の手法を再検討し,意味的一貫性と表現の多様性のバランスという,合理的なデータ拡張手法のデシラタを仮説化しようと試みる。
本仮説では, 句読点挿入, 肯定補助, 二重否定の3つの簡易かつ効果的な離散文拡張法を提案する。
句読点、副詞、否定語は語彙レベルで最小の雑音として作用し、多様な文表現を生み出す。
文をランダムに修飾する従来の拡張法とは異なり、拡張規則は意味的に一貫性があり文法的に正しい文を生成するためによく設計されている。
英語と中国語のセマンティクスの類似性データセットについて広範な実験を行った。
その結果,提案手法の堅牢性と有効性を示した。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Differentiable Data Augmentation for Contrastive Sentence Representation
Learning [6.398022050054328]
提案手法は, 半教師付き設定と教師付き設定の両方において, 既存手法よりも大幅に改善されている。
また,低ラベルデータ設定による実験により,本手法は最先端のコントラスト学習法よりもラベル効率が高いことが示された。
論文 参考訳(メタデータ) (2022-10-29T08:57:45Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings [51.274478128525686]
DiffCSEは、文の埋め込みを学習するための教師なしのコントラスト学習フレームワークである。
実験の結果,教師なし文表現学習法では,DiffCSEは最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-21T17:32:01Z) - Generative or Contrastive? Phrase Reconstruction for Better Sentence
Representation Learning [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分強力な文表現をもたらし、コントラスト学習と同等の文文類似性タスクで性能を達成することができる。
論文 参考訳(メタデータ) (2022-04-20T10:00:46Z) - Improving Paraphrase Detection with the Adversarial Paraphrasing Task [0.0]
パラフレーズデータセットは現在、単語の重複と構文に基づくパラフレーズの感覚に依存している。
パラフレーズ識別のための新しいデータセット生成法: 逆パラフレーズ処理タスク(APT)について紹介する。
APTは参加者に意味論的に等価(相互に意味的)であるが、語彙的にも構文的にも異なるパラフレーズを生成するよう要求する。
論文 参考訳(メタデータ) (2021-06-14T18:15:20Z) - CLEAR: Contrastive Learning for Sentence Representation [41.867438597420346]
複数の文レベルの拡張戦略を採用した文表現用コントラストLEArning(CLEAR)を提案する。
これらの増分には単語とスパンの削除、再順序付け、置換が含まれる。
私たちのアプローチは、SentEvalとGLUEベンチマークの両方で複数の既存のメソッドを上回ることが示されています。
論文 参考訳(メタデータ) (2020-12-31T06:40:13Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。