論文の概要: On the Sentence Embeddings from Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2011.05864v1
- Date: Mon, 2 Nov 2020 13:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:53:27.156533
- Title: On the Sentence Embeddings from Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルからの文埋め込みについて
- Authors: Bohan Li and Hao Zhou and Junxian He and Mingxuan Wang and Yiming Yang
and Lei Li
- Abstract要約: 本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
- 参考スコア(独自算出の注目度): 78.45172445684126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained contextual representations like BERT have achieved great success
in natural language processing. However, the sentence embeddings from the
pre-trained language models without fine-tuning have been found to poorly
capture semantic meaning of sentences. In this paper, we argue that the
semantic information in the BERT embeddings is not fully exploited. We first
reveal the theoretical connection between the masked language model
pre-training objective and the semantic similarity task theoretically, and then
analyze the BERT sentence embeddings empirically. We find that BERT always
induces a non-smooth anisotropic semantic space of sentences, which harms its
performance of semantic similarity. To address this issue, we propose to
transform the anisotropic sentence embedding distribution to a smooth and
isotropic Gaussian distribution through normalizing flows that are learned with
an unsupervised objective. Experimental results show that our proposed
BERT-flow method obtains significant performance gains over the
state-of-the-art sentence embeddings on a variety of semantic textual
similarity tasks. The code is available at
https://github.com/bohanli/BERT-flow.
- Abstract(参考訳): BERTのような事前訓練された文脈表現は自然言語処理において大きな成功を収めた。
しかし、微調整のない事前学習された言語モデルからの文の埋め込みは、文の意味的な意味をうまく捉えていないことが判明した。
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
まず,マスク付き言語モデルの事前学習目標と意味的類似性タスクとの理論的関連を理論的に明らかにし,さらにBERT文の埋め込みを経験的に分析する。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
この問題に対処するために,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
実験の結果, 提案手法は, 様々な意味的テキスト類似性タスクにおいて, 最先端の文埋め込みに比べて有意な性能向上が得られた。
コードはhttps://github.com/bohanli/BERT-flowで入手できる。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings [29.273438110694574]
事前訓練された言語モデルからの文の埋め込みは、非形式的な単語に対するバイアスに悩まされる。
モデルに基づく重要度推定で単語を重み付けする,シンプルで効率的な非教師付きアプローチであるDiagonal Attention Pooling (Ditto)を提案する。
本稿では,Dittoが異方性問題を緩和し,意味的テキスト類似性タスクの事前学習モデルを改善することを示す。
論文 参考訳(メタデータ) (2023-05-18T07:56:40Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Improving Contextual Representation with Gloss Regularized Pre-training [9.589252392388758]
本稿では,単語の意味的類似性を高めるため,BERT事前学習(GR-BERT)に補助的なグロース正規化モジュールを提案する。
マスクされた単語を予測し、コンテキスト埋め込みを対応するグルースに同時にアライメントすることにより、単語の類似性を明示的にモデル化することができる。
実験結果から,単語レベルおよび文レベルの意味表現において,Gloss regularizerはBERTの恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2022-05-13T12:50:32Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Disentangling Semantics and Syntax in Sentence Embeddings with
Pre-trained Language Models [32.003787396501075]
ParaBARTは、予め訓練された言語モデルによって得られる文埋め込みにおける意味論と構文を解き放つことを学ぶ意味論文埋め込みモデルである。
ParaBARTは、ターゲットのパラフレーズとセマンティクスを共有するソース文と、ターゲットの構文を指定するパースツリーに基づいて、構文誘導のパラフレーズを実行するように訓練されている。
論文 参考訳(メタデータ) (2021-04-11T21:34:46Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - Latte-Mix: Measuring Sentence Semantic Similarity with Latent
Categorical Mixtures [0.0]
既学習言語モデルに基づいて分類的変分オートエンコーダを学習する。
ラッテ・ミクスによりこれらの微調整モデルをさらに改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-21T23:45:18Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。