論文の概要: Moving Other Way: Exploring Word Mover Distance Extensions
- arxiv url: http://arxiv.org/abs/2202.03119v2
- Date: Tue, 8 Feb 2022 16:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 11:50:14.156495
- Title: Moving Other Way: Exploring Word Mover Distance Extensions
- Title(参考訳): 別の方法:ワードムーバー距離拡張の探求
- Authors: Ilya Smirnov, Ivan P. Yamshchikov
- Abstract要約: モービル距離(英: mover's distance、WMD)は、2つのテキストに対する一般的な意味的類似度尺度である。
本稿では,WMDの拡張の可能性について検討する。
- 参考スコア(独自算出の注目度): 7.195824023358536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The word mover's distance (WMD) is a popular semantic similarity metric for
two texts. This position paper studies several possible extensions of WMD. We
experiment with the frequency of words in the corpus as a weighting factor and
the geometry of the word vector space. We validate possible extensions of WMD
on six document classification datasets. Some proposed extensions show better
results in terms of the k-nearest neighbor classification error than WMD.
- Abstract(参考訳): モービル距離 (WMD) は、2つのテキストに対する一般的な意味的類似度である。
本論文は, WMDの拡張の可能性について考察する。
重み付け係数としてコーパス内の単語の頻度と単語ベクトル空間の幾何について実験を行った。
6つの文書分類データセット上でWMDの拡張性を検証する。
いくつかの拡張は、WMDよりもk-アネレスト近傍の分類誤差の方が良い結果を示す。
関連論文リスト
- Improving word mover's distance by leveraging self-attention matrix [7.934452214142754]
提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
論文 参考訳(メタデータ) (2022-11-11T14:25:08Z) - SynWMD: Syntax-aware Word Mover's Distance for Sentence Similarity
Evaluation [36.5590780726458]
Word Mover's Distance (WMD)は、単語とモデル間の距離を、2つのテキストシーケンスにおける単語間の移動コストと類似性を計算する。
SynWMD(Syntax-aware Word Mover's Distance)と呼ばれる構文解析木を用いた改良WMD法を提案する。
論文 参考訳(メタデータ) (2022-06-20T22:30:07Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Re-evaluating Word Mover's Distance [42.922307642413244]
単語移動器距離(WMD)に関する最初の研究は、WMDが古典的ベースラインを上回っていることを報告した。
我々はWMDと古典的ベースラインの性能を再評価する。
高次元空間におけるWMDは、次元性の呪いにより、低次元空間においてよりBOWに類似した振る舞いをする。
論文 参考訳(メタデータ) (2021-05-30T01:35:03Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Hybrid Improved Document-level Embedding (HIDE) [5.33024001730262]
ハイブリット改善文書レベルの埋め込みを提案する。
ドメイン情報、音声情報の一部、感情情報をGloVeやWord2Vecなどの既存の単語埋め込みに組み込む。
本稿では,GloVe や Word2Vec などの既存の事前学習語ベクトルの精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-06-01T19:09:13Z) - Text classification with word embedding regularization and soft
similarity measure [0.20999222360659603]
2つの単語埋め込み正規化技術は、ストレージとメモリコストを削減し、トレーニング速度、文書処理速度、タスクパフォーマンスを改善する。
正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。
また,正規化単語埋め込みを用いたSCMはテキスト分類においてWMDを著しく上回り,1万倍以上高速であることを示す。
論文 参考訳(メタデータ) (2020-03-10T22:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。