論文の概要: SDA: Simple Discrete Augmentation for Contrastive Sentence
Representation Learning
- arxiv url: http://arxiv.org/abs/2210.03963v1
- Date: Sat, 8 Oct 2022 08:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:26:04.858958
- Title: SDA: Simple Discrete Augmentation for Contrastive Sentence
Representation Learning
- Title(参考訳): SDA:コントラスト表現学習のための簡易離散化
- Authors: Zhenyu Mao, Dongsheng Zhu, Jinghui Lu, Rui Zhao, Fei Tan
- Abstract要約: 本稿では, 句読点挿入法, 肯定補助法, 二重否定法の3つの簡易かつ効果的な離散文拡張法を提案する。
文をランダムに修正する従来の拡張法とは異なり、我々の拡張規則は意味論的に一貫性があり文法的に正しい文を生成するためによく設計されている。
- 参考スコア(独自算出の注目度): 9.49845759829947
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Contrastive learning methods achieve state-of-the-art results in unsupervised
sentence representation learning. Although playing essential roles in
contrastive learning, data augmentation methods applied on sentences have not
been fully explored. Current SOTA method SimCSE utilizes a simple dropout
mechanism as continuous augmentation which outperforms discrete augmentations
such as cropping, word deletion and synonym replacement. To understand the
underlying rationales, we revisit existing approaches and attempt to
hypothesize the desiderata of reasonable data augmentation methods: balance of
semantic consistency and expression diversity. Based on the hypothesis, we
propose three simple yet effective discrete sentence augmentation methods,
i.e., punctuation insertion, affirmative auxiliary and double negation. The
punctuation marks, auxiliaries and negative words act as minimal noises in
lexical level to produce diverse sentence expressions. Unlike traditional
augmentation methods which randomly modify the sentence, our augmentation rules
are well designed for generating semantically consistent and grammatically
correct sentences. We conduct extensive experiments on both English and Chinese
semantic textual similarity datasets. The results show the robustness and
effectiveness of the proposed methods.
- Abstract(参考訳): コントラスト学習は教師なし文表現学習において最先端の結果を得る。
コントラスト学習において重要な役割を担っているが、文に適用されるデータ拡張方法は十分に研究されていない。
現在のSOTA法であるSimCSEは、トリミング、単語削除、同義語置換といった離散的な拡張よりも優れた、連続的な拡張として単純なドロップアウト機構を利用する。
そこで我々は,既存の手法を再検討し,意味的一貫性と表現の多様性のバランスという,合理的なデータ拡張手法のデシラタを仮説化しようと試みる。
本仮説では, 句読点挿入, 肯定補助, 二重否定の3つの簡易かつ効果的な離散文拡張法を提案する。
句読点、副詞、否定語は語彙レベルで最小の雑音として作用し、多様な文表現を生み出す。
文をランダムに修飾する従来の拡張法とは異なり、拡張規則は意味的に一貫性があり文法的に正しい文を生成するためによく設計されている。
英語と中国語のセマンティクスの類似性データセットについて広範な実験を行った。
その結果,提案手法の堅牢性と有効性を示した。
関連論文リスト
- Generating Diverse Negations from Affirmative Sentences [0.999726509256195]
否定は、動詞句、節、その他の表現において負の極性を符号化する現実世界の応用において重要である。
多様な否定型を生成することにより,否定データセットの欠如に対処する手法であるNegVerseを提案する。
我々は,構文構造に基づいて,否定が最も起こりやすい文の一部をマスキングするための新しい規則を提案する。
また, 否定の手がかりを同定し, 退化例を除去し, 多様な有意義な摂動を生じさせるフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-10-30T21:25:02Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z) - SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with
Soft Negative Samples [36.08601841321196]
ソフトな負のサンプルを埋め込んだ教師なし文のコントラスト学習を提案する。
SNCSEは意味的テキスト類似性タスクにおいて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2022-01-16T06:15:43Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z) - CLEAR: Contrastive Learning for Sentence Representation [41.867438597420346]
複数の文レベルの拡張戦略を採用した文表現用コントラストLEArning(CLEAR)を提案する。
これらの増分には単語とスパンの削除、再順序付け、置換が含まれる。
私たちのアプローチは、SentEvalとGLUEベンチマークの両方で複数の既存のメソッドを上回ることが示されています。
論文 参考訳(メタデータ) (2020-12-31T06:40:13Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。