論文の概要: Self-Adaptive Reconstruction with Contrastive Learning for Unsupervised
Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2402.15153v1
- Date: Fri, 23 Feb 2024 07:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:18:55.962680
- Title: Self-Adaptive Reconstruction with Contrastive Learning for Unsupervised
Sentence Embeddings
- Title(参考訳): 教師なし文埋め込みのためのコントラスト学習による自己適応型再構成
- Authors: Junlong Liu, Xichen Shang, Huawen Feng, Junhao Zheng, Qianli Ma
- Abstract要約: 教師なし文埋め込みタスクは、文を意味ベクトル表現に変換することを目的としている。
事前訓練された言語モデルにおけるトークンバイアスのため、モデルは文中のきめ細かいセマンティクスをキャプチャできない。
本稿では,新たな自己適応型コントラスト文埋め込みフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.255946996327104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised sentence embeddings task aims to convert sentences to semantic
vector representations. Most previous works directly use the sentence
representations derived from pretrained language models. However, due to the
token bias in pretrained language models, the models can not capture the
fine-grained semantics in sentences, which leads to poor predictions. To
address this issue, we propose a novel Self-Adaptive Reconstruction Contrastive
Sentence Embeddings (SARCSE) framework, which reconstructs all tokens in
sentences with an AutoEncoder to help the model to preserve more fine-grained
semantics during tokens aggregating. In addition, we proposed a self-adaptive
reconstruction loss to alleviate the token bias towards frequency. Experimental
results show that SARCSE gains significant improvements compared with the
strong baseline SimCSE on the 7 STS tasks.
- Abstract(参考訳): 教師なし文埋め込みタスクは、文を意味ベクトル表現に変換することを目的としている。
以前の作品の多くは、事前学習された言語モデルから派生した文表現を直接使用する。
しかし、事前訓練された言語モデルのトークンバイアスのため、モデルは文の細粒度のセマンティクスをキャプチャできないため、予測は不十分である。
この問題に対処するために,AutoEncoderを用いて文中のすべてのトークンを再構成し,トークン集約中によりきめ細かなセマンティクスを保持するための,新しい自己適応型コントラスト文埋め込み(SARCSE)フレームワークを提案する。
さらに,周波数に対するトークンバイアスを軽減するための自己適応的再構成損失を提案する。
実験の結果,SARCSEは7つのSTSタスクの強いベースラインであるSimCSEに比べて大幅に改善された。
関連論文リスト
- Bipartite Graph Pre-training for Unsupervised Extractive Summarization
with Graph Convolutional Auto-Encoders [24.13261636386226]
本研究は, 文章表現の正当性や特徴を最適化するプロセスから, 事前学習した埋め込みを活用することで, 重要な文のランク付けに役立てるものであることを論じる。
そこで本研究では,文埋め込みのためのグラフ事前学習オートエンコーダを提案する。
論文 参考訳(メタデータ) (2023-10-29T12:27:18Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - SimCSE: Simple Contrastive Learning of Sentence Embeddings [10.33373737281907]
本稿では,埋め込み学習フレームワークであるSimCSEについて述べる。
まず、教師なしのアプローチを記述し、入力文を取り、それ自身を対照目的に予測する。
次に,nliデータセットからの注釈付きペアを「補足」ペアを正として,「矛盾」ペアをハード負として対比学習に組み込む。
論文 参考訳(メタデータ) (2021-04-18T11:27:08Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。