論文の概要: RPD: A Distance Function Between Word Embeddings
- arxiv url: http://arxiv.org/abs/2005.08113v1
- Date: Sat, 16 May 2020 21:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:24:25.260169
- Title: RPD: A Distance Function Between Word Embeddings
- Title(参考訳): RPD:単語埋め込み間の距離関数
- Authors: Xuhui Zhou, Zaixiang Zheng, Shujian Huang
- Abstract要約: 相対的ペアワイド内積距離(RPD)は、単語埋め込みの異なるセット間の距離を定量化する新しい計量である。
本研究では,異なるアルゴリズムの単語埋め込みの関係を体系的に研究し,異なる学習プロセスとコーパスの影響について検討する。
- 参考スコア(独自算出の注目度): 38.88777272914917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well-understood that different algorithms, training processes, and
corpora produce different word embeddings. However, less is known about the
relation between different embedding spaces, i.e. how far different sets of
embeddings deviate from each other. In this paper, we propose a novel metric
called Relative pairwise inner Product Distance (RPD) to quantify the distance
between different sets of word embeddings. This metric has a unified scale for
comparing different sets of word embeddings. Based on the properties of RPD, we
study the relations of word embeddings of different algorithms systematically
and investigate the influence of different training processes and corpora. The
results shed light on the poorly understood word embeddings and justify RPD as
a measure of the distance of embedding spaces.
- Abstract(参考訳): 異なるアルゴリズム、トレーニングプロセス、コーパスが異なる単語埋め込みを生成することはよく理解されている。
しかし、異なる埋め込み空間の間の関係、すなわち、どのように異なる埋め込み集合が互いに逸脱するかについてはあまり知られていない。
本稿では,単語埋め込みの集合間の距離を定量化するために,Relative pairwise inner Product Distance (RPD) と呼ばれる新しい指標を提案する。
この計量は、単語埋め込みの異なる集合を比較するための統一スケールを持つ。
rpdの特性に基づいて, 異なるアルゴリズムの単語埋め込みの関係を体系的に検討し, 異なる訓練過程とコーパスの影響について検討した。
その結果, 単語埋め込みの理解が不十分な点に光を当て, 埋め込み空間の距離の尺度として RPD を正当化した。
関連論文リスト
- Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Improving word mover's distance by leveraging self-attention matrix [7.934452214142754]
提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
論文 参考訳(メタデータ) (2022-11-11T14:25:08Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Blind signal decomposition of various word embeddings based on join and
individual variance explained [11.542392473831672]
そこで本稿では,JIVEとJIVEを併用して,各種単語の組込みを結合成分と個別成分に分解する,新しい結合信号分離手法を提案する。
我々は,2vec,FastText,GLoVEの異なるコーパスと異なる次元で訓練を行った。
その結果,異なる単語の埋め込みを結合成分にマッピングすることにより,従来の単語埋め込みよりも低性能で感情性能が大幅に向上できることが判明した。
論文 参考訳(メタデータ) (2020-11-30T01:36:29Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。