論文の概要: Extending Multi-Sense Word Embedding to Phrases and Sentences for
Unsupervised Semantic Applications
- arxiv url: http://arxiv.org/abs/2103.15330v1
- Date: Mon, 29 Mar 2021 04:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 05:00:12.842913
- Title: Extending Multi-Sense Word Embedding to Phrases and Sentences for
Unsupervised Semantic Applications
- Title(参考訳): 教師なしセマンティック・アプリケーションのためのフレーズ・文への多義語埋め込みの拡張
- Authors: Haw-Shiuan Chang, Amol Agrawal, Andrew McCallum
- Abstract要約: 本稿では,テキスト列(句または文)に対して,それぞれのシーケンスをコードブック埋め込みの異なる集合で表現する新しい埋め込み手法を提案する。
提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 34.71597411512625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most unsupervised NLP models represent each word with a single point or
single region in semantic space, while the existing multi-sense word embeddings
cannot represent longer word sequences like phrases or sentences. We propose a
novel embedding method for a text sequence (a phrase or a sentence) where each
sequence is represented by a distinct set of multi-mode codebook embeddings to
capture different semantic facets of its meaning. The codebook embeddings can
be viewed as the cluster centers which summarize the distribution of possibly
co-occurring words in a pre-trained word embedding space. We introduce an
end-to-end trainable neural model that directly predicts the set of cluster
centers from the input text sequence during test time. Our experiments show
that the per-sentence codebook embeddings significantly improve the
performances in unsupervised sentence similarity and extractive summarization
benchmarks. In phrase similarity experiments, we discover that the multi-facet
embeddings provide an interpretable semantic representation but do not
outperform the single-facet baseline.
- Abstract(参考訳): ほとんどの教師なしNLPモデルは、意味空間内の1つの点または1つの領域を持つ各単語を表すが、既存の多義語埋め込みはフレーズや文のような長い単語列を表現できない。
本稿では,テキストシーケンス(句や文)に対する新しい埋め込み手法を提案する。各シーケンスは,複数のモードのコードブックの埋め込みによって表現され,意味の異なるセマンティックな面をキャプチャする。
コードブック埋め込みは、事前訓練された単語埋め込み空間における、おそらく共起する単語の分布をまとめるクラスタセンターと見なすことができる。
テスト期間中に入力テキストシーケンスからクラスタセンターの集合を直接予測するエンドツーエンドのトレーニング可能なニューラルモデルを導入する。
提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。
句類似性実験では,多面体埋め込みは解釈可能な意味表現を提供するが,単面体ベースラインよりは優れないことがわかった。
関連論文リスト
- Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。
SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。
この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文 参考訳(メタデータ) (2022-12-19T06:03:04Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - Supervised Understanding of Word Embeddings [1.160208922584163]
単語埋め込みにおける線形キーワードレベル分類器の形で教師付きプロジェクションを得た。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
論文 参考訳(メタデータ) (2020-06-23T20:13:42Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。