論文の概要: Improving word mover's distance by leveraging self-attention matrix
- arxiv url: http://arxiv.org/abs/2211.06229v2
- Date: Thu, 2 Nov 2023 15:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 18:21:14.746457
- Title: Improving word mover's distance by leveraging self-attention matrix
- Title(参考訳): セルフアテンションマトリクスを活用した単語移動距離の改善
- Authors: Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodaira
- Abstract要約: 提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
- 参考スコア(独自算出の注目度): 7.934452214142754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring the semantic similarity between two sentences is still an important
task. The word mover's distance (WMD) computes the similarity via the optimal
alignment between the sets of word embeddings. However, WMD does not utilize
word order, making it challenging to distinguish sentences with significant
overlaps of similar words, even if they are semantically very different. Here,
we attempt to improve WMD by incorporating the sentence structure represented
by BERT's self-attention matrix (SAM). The proposed method is based on the
Fused Gromov-Wasserstein distance, which simultaneously considers the
similarity of the word embedding and the SAM for calculating the optimal
transport between two sentences. Experiments demonstrate the proposed method
enhances WMD and its variants in paraphrase identification with near-equivalent
performance in semantic textual similarity. Our code is available at
\url{https://github.com/ymgw55/WSMD}.
- Abstract(参考訳): 2つの文間の意味的類似性を測定することは依然として重要な課題である。
単語移動器距離 (WMD) は単語埋め込みの集合間の最適アライメントによって類似性を計算する。
しかし、wmdは単語の順序を使わないため、意味的に非常に異なる場合であっても、類似した単語が重なり合う文章を区別することが困難である。
本稿では,BERT の自己認識行列 (SAM) で表される文構造を組み込んで WMD の改善を試みる。
提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
我々のコードは \url{https://github.com/ymgw55/WSMD} で入手できる。
関連論文リスト
- Span-Aggregatable, Contextualized Word Embeddings for Effective Phrase Mining [0.22499166814992438]
目的語句が雑音の多い文脈内に存在する場合, 単語の完全文を1つの高次ベクトルで表すだけでは, 効果的な句検索には不十分であることを示す。
本稿では,この手法がフレーズマイニングに有用であるが,有用なスパン表現を得るためには,かなりの計算が必要であることを示す。
論文 参考訳(メタデータ) (2024-05-12T12:08:05Z) - Bridging Continuous and Discrete Spaces: Interpretable Sentence
Representation Learning via Compositional Operations [80.45474362071236]
文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。
文埋め込み学習のためのエンドツーエンドフレームワークであるInterSentを提案する。
論文 参考訳(メタデータ) (2023-05-24T00:44:49Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - SynWMD: Syntax-aware Word Mover's Distance for Sentence Similarity
Evaluation [36.5590780726458]
Word Mover's Distance (WMD)は、単語とモデル間の距離を、2つのテキストシーケンスにおける単語間の移動コストと類似性を計算する。
SynWMD(Syntax-aware Word Mover's Distance)と呼ばれる構文解析木を用いた改良WMD法を提案する。
論文 参考訳(メタデータ) (2022-06-20T22:30:07Z) - Moving Other Way: Exploring Word Mover Distance Extensions [7.195824023358536]
モービル距離(英: mover's distance、WMD)は、2つのテキストに対する一般的な意味的類似度尺度である。
本稿では,WMDの拡張の可能性について検討する。
論文 参考訳(メタデータ) (2022-02-07T12:56:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Learning to Remove: Towards Isotropic Pre-trained BERT Embedding [7.765987411382461]
単語表現の研究は、等方的埋め込みが下流タスクの性能を大幅に改善できることを示している。
事前に訓練されたBERT埋め込みのジオメトリを測定し、分析し、等方性とは程遠いことを見つけます。
この問題を解決するためのシンプルで効果的な方法を提案する:学習可能な重みのセットでBERT埋め込みのいくつかの支配的な方向を削除します。
論文 参考訳(メタデータ) (2021-04-12T08:13:59Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z) - Text classification with word embedding regularization and soft
similarity measure [0.20999222360659603]
2つの単語埋め込み正規化技術は、ストレージとメモリコストを削減し、トレーニング速度、文書処理速度、タスクパフォーマンスを改善する。
正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。
また,正規化単語埋め込みを用いたSCMはテキスト分類においてWMDを著しく上回り,1万倍以上高速であることを示す。
論文 参考訳(メタデータ) (2020-03-10T22:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。