論文の概要: Disentangling Semantics and Syntax in Sentence Embeddings with
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2104.05115v1
- Date: Sun, 11 Apr 2021 21:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:21:50.822312
- Title: Disentangling Semantics and Syntax in Sentence Embeddings with
Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルを用いた文埋め込みにおける意味と構文の相違
- Authors: James Y. Huang, Kuan-Hao Huang, Kai-Wei Chang
- Abstract要約: ParaBARTは、予め訓練された言語モデルによって得られる文埋め込みにおける意味論と構文を解き放つことを学ぶ意味論文埋め込みモデルである。
ParaBARTは、ターゲットのパラフレーズとセマンティクスを共有するソース文と、ターゲットの構文を指定するパースツリーに基づいて、構文誘導のパラフレーズを実行するように訓練されている。
- 参考スコア(独自算出の注目度): 32.003787396501075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have achieved huge success on a wide range of NLP
tasks. However, contextual representations from pre-trained models contain
entangled semantic and syntactic information, and therefore cannot be directly
used to derive useful semantic sentence embeddings for some tasks. Paraphrase
pairs offer an effective way of learning the distinction between semantics and
syntax, as they naturally share semantics and often vary in syntax. In this
work, we present ParaBART, a semantic sentence embedding model that learns to
disentangle semantics and syntax in sentence embeddings obtained by pre-trained
language models. ParaBART is trained to perform syntax-guided paraphrasing,
based on a source sentence that shares semantics with the target paraphrase,
and a parse tree that specifies the target syntax. In this way, ParaBART learns
disentangled semantic and syntactic representations from their respective
inputs with separate encoders. Experiments in English show that ParaBART
outperforms state-of-the-art sentence embedding models on unsupervised semantic
similarity tasks. Additionally, we show that our approach can effectively
remove syntactic information from semantic sentence embeddings, leading to
better robustness against syntactic variation on downstream semantic tasks.
- Abstract(参考訳): 事前訓練された言語モデルは、幅広いNLPタスクで大きな成功を収めている。
しかし、事前学習されたモデルからの文脈表現は、絡み合った意味的および構文的情報を含んでいるため、いくつかのタスクで有用な意味的文埋め込みを導出するために直接使用することはできない。
パラフレーズペアは、自然に意味を共有し、しばしば構文が異なるので、意味論と構文の区別を学ぶ効果的な方法を提供する。
本研究では,事前学習した言語モデルから得られた文の埋め込みにおいて,意味論と構文をアンタングル化する意味文埋め込みモデルであるParaBARTを提案する。
ParaBARTは、ターゲットのパラフレーズとセマンティクスを共有するソース文と、ターゲットの構文を指定するパースツリーに基づいて、構文誘導のパラフレーズを実行するように訓練されている。
このようにして、ParaBARTは異なるエンコーダでそれぞれの入力から非絡み合いのセマンティック表現と構文表現を学ぶ。
英語の実験では、ParaBARTは教師なし意味的類似性タスクにおける最先端の文埋め込みモデルよりも優れていた。
さらに,本手法は意味文埋め込みから構文情報を効果的に除去し,下流意味タスクにおける構文変化に対するロバスト性を向上させることができることを示した。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Breaking Down Word Semantics from Pre-trained Language Models through
Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。
2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文 参考訳(メタデータ) (2023-10-08T11:07:19Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Transferring Semantic Knowledge Into Language Encoders [6.85316573653194]
意味的意味表現から言語エンコーダへ意味的知識を伝達する手法である意味型ミッドチューニングを導入する。
このアライメントは分類や三重項の損失によって暗黙的に学習できることを示す。
提案手法は, 推論, 理解, テキストの類似性, その他の意味的タスクにおいて, 予測性能の向上を示す言語エンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-14T14:11:12Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Cross-lingual Word Sense Disambiguation using mBERT Embeddings with
Syntactic Dependencies [0.0]
言語間の単語感覚の曖昧さ (WSD) は、与えられた文脈にまたがるあいまいな単語の曖昧さに対処する。
BERT埋め込みモデルは、単語の文脈情報に有効であることが証明されている。
このプロジェクトは、構文情報がどのようにBERT埋め込みに追加され、セマンティクスと構文を組み込んだ単語埋め込みの両方をもたらすかを調査します。
論文 参考訳(メタデータ) (2020-12-09T20:22:11Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。