論文の概要: A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2203.05877v1
- Date: Fri, 11 Mar 2022 12:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:12:36.765046
- Title: A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings
- Title(参考訳): 文は128個の擬似トークンの価値 - 文埋め込みのための意味認識型コントラスト学習フレームワーク
- Authors: Haochen Tan, Wei Shao, Han Wu, Ke Yang, Linqi Song
- Abstract要約: Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 28.046786376565123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has shown great potential in unsupervised sentence
embedding tasks, e.g., SimCSE. However, We find that these existing solutions
are heavily affected by superficial features like the length of sentences or
syntactic structures. In this paper, we propose a semantics-aware contrastive
learning framework for sentence embeddings, termed Pseudo-Token BERT (PT-BERT),
which is able to exploit the pseudo-token space (i.e., latent semantic space)
representation of a sentence while eliminating the impact of superficial
features such as sentence length and syntax. Specifically, we introduce an
additional pseudo token embedding layer independent of the BERT encoder to map
each sentence into a sequence of pseudo tokens in a fixed length. Leveraging
these pseudo sequences, we are able to construct same-length positive and
negative pairs based on the attention mechanism to perform contrastive
learning. In addition, we utilize both the gradient-updating and
momentum-updating encoders to encode instances while dynamically maintaining an
additional queue to store the representation of sentence embeddings, enhancing
the encoder's learning performance for negative examples. Experiments show that
our model outperforms the state-of-the-art baselines on six standard semantic
textual similarity (STS) tasks. Furthermore, experiments on alignments and
uniformity losses, as well as hard examples with different sentence lengths and
syntax, consistently verify the effectiveness of our method.
- Abstract(参考訳): コントラスト学習は、教師なし文の埋め込みタスク、例えばSimCSEにおいて大きな可能性を示している。
しかし,これらの既存の解は文の長さや構文構造といった表面的特徴に大きく影響されている。
本稿では,文長や構文などの表面的特徴の影響を排除しつつ,文の擬似意味空間(潜時意味空間)表現を活用可能な文埋め込み用意味論的コントラスト学習フレームワーク Pseudo-Token BERT (PT-BERT) を提案する。
具体的には,BERTエンコーダに依存しない追加の擬似トークン埋め込み層を導入し,各文を固定長の擬似トークン列にマッピングする。
これらの擬似シーケンスを活用することで、注意機構に基づいて同じ長の正と負のペアを構築し、コントラスト学習を行うことができる。
さらに,勾配上昇エンコーダと運動量上昇エンコーダを併用してインスタンスをエンコードするとともに,追加のキューを動的に保持して文の埋め込み表現を格納し,負の例に対するエンコーダの学習性能を向上させる。
実験の結果,本モデルは6つの標準意味テキスト類似性 (sts) タスクにおいて最先端のベースラインよりも優れていることがわかった。
さらに、アライメントと一様性損失の実験、および文の長さと構文の異なるハード例により、本手法の有効性を一貫して検証する。
関連論文リスト
- BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Bridging Continuous and Discrete Spaces: Interpretable Sentence
Representation Learning via Compositional Operations [80.45474362071236]
文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。
文埋め込み学習のためのエンドツーエンドフレームワークであるInterSentを提案する。
論文 参考訳(メタデータ) (2023-05-24T00:44:49Z) - SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning [14.028140579482688]
SimCSEは、報告されているように、トリミング、単語削除、同義語置換といった個別の増強を驚くほど支配している。
我々は,句読点挿入,モーダル動詞,二重否定の3つの簡易かつ効果的な離散文拡張手法を開発した。
その結果,提案手法の優越性は一貫して向上した。
論文 参考訳(メタデータ) (2022-10-08T08:07:47Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Self-Guided Contrastive Learning for BERT Sentence Representations [19.205754738851546]
本稿では,BERT文表現の品質向上に自己指導を利用したコントラスト学習手法を提案する。
提案手法は,BERTを自己教師型で微調整し,データ拡張に頼らず,通常の[]トークン埋め込みを文ベクトルとして機能させる。
論文 参考訳(メタデータ) (2021-06-03T05:52:43Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。