論文の概要: SentPWNet: A Unified Sentence Pair Weighting Network for Task-specific
Sentence Embedding
- arxiv url: http://arxiv.org/abs/2005.11347v1
- Date: Fri, 22 May 2020 18:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:23:14.795834
- Title: SentPWNet: A Unified Sentence Pair Weighting Network for Task-specific
Sentence Embedding
- Title(参考訳): SentPWNet:タスク固有文埋め込みのための統一文ペアウェイトネットワーク
- Authors: Li Zhang, Han Wang, Lingxiao Li
- Abstract要約: 本稿では,タスク固有の文の埋め込みを学習するための局所性重み付けと学習フレームワークを提案する。
我々のモデルであるSentPWNetは、各文の空間分布を局所性重みとして利用し、文対の情報レベルを示す。
- 参考スコア(独自算出の注目度): 12.020634125787279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pair-based metric learning has been widely adopted to learn sentence
embedding in many NLP tasks such as semantic text similarity due to its
efficiency in computation. Most existing works employed a sequence encoder
model and utilized limited sentence pairs with a pair-based loss to learn
discriminating sentence representation. However, it is known that the sentence
representation can be biased when the sampled sentence pairs deviate from the
true distribution of all sentence pairs. In this paper, our theoretical
analysis shows that existing works severely suffered from a good pair sampling
and instance weighting strategy. Instead of one time pair selection and
learning on equal weighted pairs, we propose a unified locality weighting and
learning framework to learn task-specific sentence embedding. Our model,
SentPWNet, exploits the neighboring spatial distribution of each sentence as
locality weight to indicate the informative level of sentence pair. Such weight
is updated along with pair-loss optimization in each round, ensuring the model
keep learning the most informative sentence pairs. Extensive experiments on
four public available datasets and a self-collected place search benchmark with
1.4 million places clearly demonstrate that our model consistently outperforms
existing sentence embedding methods with comparable efficiency.
- Abstract(参考訳): ペアベースのメトリック学習は、計算効率の良さから意味テキストの類似性など、多くのnlpタスクにおける文埋め込みを学ぶために広く採用されている。
既存の研究の多くはシーケンスエンコーダモデルを採用し、ペアベースの損失を持つ限定文ペアを使用して、識別文表現を学習している。
しかし, サンプル文対がすべての文対の真分布から逸脱した場合には, 文表現に偏りが生じることが知られている。
本稿では,既存の作業が良好なペアサンプリングとインスタンス重み付け戦略に苦しむことを理論的に示す。
同一重み付きペアにおける一対選択と学習の代わりに、タスク固有の文の埋め込みを学習するための統一的な局所性重み付けと学習フレームワークを提案する。
我々のモデルであるSentPWNetは、各文の空間分布を局所性重みとして利用し、文対の情報レベルを示す。
このような重みは各ラウンドでペアロスの最適化とともに更新され、モデルが最も有益な文対を学習し続ける。
4つの公開データセットに関する広範囲な実験と、140万箇所の自己収集場所検索ベンチマークは、我々のモデルが既存の文埋め込みメソッドを同等の効率で一貫して上回っていることをはっきりと示しています。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - Sentence Similarity Based on Contexts [31.135984064747607]
提案するフレームワークは,文の意味を文脈によって定義する,という中核的な考え方に基づいている。
2つの文間の意味的類似度スコアを教師なしの方法で高品質の大規模データセットを生成することができます。
論文 参考訳(メタデータ) (2021-05-17T06:03:56Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - Fact-aware Sentence Split and Rephrase with Permutation Invariant
Training [93.66323661321113]
Sentence Split と Rephrase は、複雑な文をいくつかの単純な文に分解し、その意味を保存することを目的としている。
従来の研究では、パラレル文対からのSeq2seq学習によってこの問題に対処する傾向があった。
本稿では,この課題に対するSeq2seq学習における順序分散の効果を検証するために,置換訓練を導入する。
論文 参考訳(メタデータ) (2020-01-16T07:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。