論文の概要: Ranking-Enhanced Unsupervised Sentence Representation Learning
- arxiv url: http://arxiv.org/abs/2209.04333v1
- Date: Fri, 9 Sep 2022 14:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:40:53.984720
- Title: Ranking-Enhanced Unsupervised Sentence Representation Learning
- Title(参考訳): ランキング強化型教師なし文表現学習
- Authors: Yeon Seonwoo, Guoyin Wang, Sajal Choudhary, Changmin Seo, Jiwei Li,
Xiang Li, Puyang Xu, Sunghyun Park, Alice Oh
- Abstract要約: コーパス内の入力文と文の関係を利用して教師なし文エンコーダを訓練するRandEncoderを提案する。
RankEncoder は 80.07% のSpearman の相関を達成している。
- 参考スコア(独自算出の注目度): 32.89057204258891
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous unsupervised sentence embedding studies have focused on data
augmentation methods such as dropout masking and rule-based sentence
transformation methods. However, these approaches have a limitation of
controlling the fine-grained semantics of augmented views of a sentence. This
results in inadequate supervision signals for capturing a semantic similarity
of similar sentences. In this work, we found that using neighbor sentences
enables capturing a more accurate semantic similarity between similar
sentences. Based on this finding, we propose RankEncoder, which uses relations
between an input sentence and sentences in a corpus for training unsupervised
sentence encoders. We evaluate RankEncoder from three perspectives: 1) the
semantic textual similarity performance, 2) the efficacy on similar sentence
pairs, and 3) the universality of RankEncoder. Experimental results show that
RankEncoder achieves 80.07\% Spearman's correlation, a 1.1% absolute
improvement compared to the previous state-of-the-art performance. The
improvement is even more significant, a 1.73% improvement, on similar sentence
pairs. Also, we demonstrate that RankEncoder is universally applicable to
existing unsupervised sentence encoders.
- Abstract(参考訳): 従来の教師なし文の埋め込み研究は、ドロップアウトマスキングやルールベースの文変換法といったデータ拡張手法に重点を置いてきた。
しかしながら、これらのアプローチは、文の拡張ビューのきめ細かいセマンティクスを制御する制限を持っている。
これにより、類似した文の意味的類似性を捉えるための監視信号が不十分になる。
本研究では,類似文間の意味的類似性をより正確に捉えることができることを示す。
そこで本研究では,教師なし文エンコーダを学習するためのコーパスにおいて,入力文と文の関係を用いたrankencoderを提案する。
RankEncoderを3つの観点から評価する。
1)意味的テキスト類似性性能
2)類似文対の有効性,及び
3) RankEncoderの普遍性。
RankEncoderは80.07\%のSpearman相関を達成し,従来の最先端性能と比較して1.1%の絶対改善を実現した。
この改良はさらに重要であり、類似の文対では1.73%改善されている。
また, rankencoder は既存の教師なし文エンコーダに適用可能であることを示す。
関連論文リスト
- SenTest: Evaluating Robustness of Sentence Encoders [0.4194295877935868]
本研究は文エンコーダの堅牢性を評価することに焦点を当てる。
我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。
実験結果は文エンコーダの堅牢性を強く損なう。
論文 参考訳(メタデータ) (2023-11-29T15:21:35Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Bipartite Graph Pre-training for Unsupervised Extractive Summarization
with Graph Convolutional Auto-Encoders [24.13261636386226]
本研究は, 文章表現の正当性や特徴を最適化するプロセスから, 事前学習した埋め込みを活用することで, 重要な文のランク付けに役立てるものであることを論じる。
そこで本研究では,文埋め込みのためのグラフ事前学習オートエンコーダを提案する。
論文 参考訳(メタデータ) (2023-10-29T12:27:18Z) - Non-Autoregressive Sentence Ordering [22.45972496989434]
文間の相互依存を探索し,各位置の文を並列に予測する,textitNAON と呼ばれる新しい非自己回帰順序付けネットワークを提案する。
提案手法は,複数の一般的なデータセットに対して広範囲に実験を行い,提案手法が自己回帰的アプローチよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-10-19T10:57:51Z) - Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS [68.34155010428941]
文エンコーダ(SE)が類似する文ペアの種類は明らかでない。
HEROSは、ある規則に基づいて原文を新しい文に変換し、テキスト最小対を形成することによって構築される
HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。
論文 参考訳(メタデータ) (2023-06-08T10:24:02Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - FairFil: Contrastive Neural Debiasing Method for Pretrained Text
Encoders [68.8687509471322]
本稿では,プリトレーニングされたエンコーダ出力をフェアフィルタネットワークを介してデバイアス表現に変換する,プリトレーニング文エンコーダの最初のニューラルデバイアス手法を提案する。
実世界のデータセットでは、fairfilは学習済みテキストエンコーダのバイアスを効果的に低減し、下流タスクで望ましいパフォーマンスを継続的に示します。
論文 参考訳(メタデータ) (2021-03-11T02:01:14Z) - Revisiting Paraphrase Question Generator using Pairwise Discriminator [25.449902612898594]
文レベルの埋め込みを得るための新しい手法を提案する。
提案手法は, 意味的埋め込みを行い, パラフレーズ生成および感情分析タスクにおける最先端技術よりも優れる。
論文 参考訳(メタデータ) (2019-12-31T02:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。