論文の概要: Re-evaluating Word Mover's Distance
- arxiv url: http://arxiv.org/abs/2105.14403v1
- Date: Sun, 30 May 2021 01:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:37:20.113426
- Title: Re-evaluating Word Mover's Distance
- Title(参考訳): 単語モーバー距離の再評価
- Authors: Ryoma Sato, Makoto Yamada, Hisashi Kashima
- Abstract要約: 単語移動器距離(WMD)に関する最初の研究は、WMDが古典的ベースラインを上回っていることを報告した。
我々はWMDと古典的ベースラインの性能を再評価する。
高次元空間におけるWMDは、次元性の呪いにより、低次元空間においてよりBOWに類似した振る舞いをする。
- 参考スコア(独自算出の注目度): 42.922307642413244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The word mover's distance (WMD) is a fundamental technique for measuring the
similarity of two documents. As the crux of WMD, it can take advantage of the
underlying geometry of the word space by employing an optimal transport
formulation. The original study on WMD reported that WMD outperforms classical
baselines such as bag-of-words (BOW) and TF-IDF by significant margins in
various datasets. In this paper, we point out that the evaluation in the
original study could be misleading. We re-evaluate the performances of WMD and
the classical baselines and find that the classical baselines are competitive
with WMD if we employ an appropriate preprocessing, i.e., L1 normalization.
However, this result is not intuitive. WMD should be superior to BOW because
WMD can take the underlying geometry into account, whereas BOW cannot. Our
analysis shows that this is due to the high-dimensional nature of the
underlying metric. We find that WMD in high-dimensional spaces behaves more
similarly to BOW than in low-dimensional spaces due to the curse of
dimensionality.
- Abstract(参考訳): モービル距離 (WMD) は2つの文書の類似度を測定するための基本的な手法である。
WMDの要点として、最適な輸送定式化を用いることで、単語空間の基盤となる幾何学を活用できる。
WMDに関する最初の研究は、WMDがback-of-words (BOW) やTF-IDFといった古典的なベースラインを様々なデータセットで大幅に上回っていることを報告した。
本稿では,本研究における評価が誤解を招く可能性があることを指摘する。
我々は、wmdおよび古典ベースラインの性能を再評価し、適切な前処理、すなわちl1正規化を用いる場合、古典ベースラインがwmdと競合していることを見出す。
しかし、この結果は直感的ではない。
WMDがBOWより優れているのは、WMDが基礎となる幾何学を考慮に入れることができるからである。
我々の分析は、これは基礎となる計量の高次元の性質によるものであることを示している。
高次元空間におけるWMDは、次元性の呪いにより、低次元空間においてよりBOWに類似した振る舞いをする。
関連論文リスト
- Detecting Machine-Generated Texts by Multi-Population Aware Optimization
for Maximum Mean Discrepancy [47.382793714455445]
機械生成テキスト(MGT)は、盗作、誤解を招く情報、幻覚などの重大なリスクを負う可能性がある。
MGTと人文テキストを区別することは困難である。
そこで本研究では,MDD-MPと呼ばれるMDDのテキストマルチユーザ対応最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-25T09:44:56Z) - Measuring the Robustness of NLP Models to Domain Shifts [50.89876374569385]
ドメインロバストネス(DR)に関する既存の研究は、異なる設定、限られたタスクの多様性、コンテキスト内学習のような最近の能力に関する研究が不足している。
現在の研究は、チャレンジセットに焦点を当て、ソースドロップ(SD: Source Drop)のみに依存している。
我々は、ドメイン内パフォーマンスの劣化を測定するターゲットドロップ(TD)を相補的な視点として使うべきであると論じる。
論文 参考訳(メタデータ) (2023-05-31T20:25:08Z) - Improving word mover's distance by leveraging self-attention matrix [7.934452214142754]
提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
論文 参考訳(メタデータ) (2022-11-11T14:25:08Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Moving Other Way: Exploring Word Mover Distance Extensions [7.195824023358536]
モービル距離(英: mover's distance、WMD)は、2つのテキストに対する一般的な意味的類似度尺度である。
本稿では,WMDの拡張の可能性について検討する。
論文 参考訳(メタデータ) (2022-02-07T12:56:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Non-Parametric Few-Shot Learning for Word Sense Disambiguation [11.175893018731712]
MetricWSDは、このデータアンバランス問題を緩和するための非パラメトリックな数ショット学習アプローチです。
MetricWSDは、ある単語の感覚間の距離を計算することを学ぶことで、高周波の単語から頻繁な単語に知識を伝達する。
論文 参考訳(メタデータ) (2021-04-26T16:08:46Z) - MMD-Regularized Unbalanced Optimal Transport [0.0]
最大平均離散化(MMD)正則化を用いて限界制約を強制する不均衡最適輸送(UOT)問題について検討する。
UOTに関する文献は$phi$-divergenceに基づく正規化に焦点が当てられている。
MMDの人気にもかかわらず、UOTの文脈における正則化者としての役割は理解されていないようである。
論文 参考訳(メタデータ) (2020-11-10T09:32:50Z) - Rethink Maximum Mean Discrepancy for Domain Adaptation [77.2560592127872]
本論文は,(1)最大平均距離の最小化は,それぞれソースとクラス内距離の最大化に等しいが,その差を暗黙の重みと共同で最小化し,特徴判別性は低下する,という2つの本質的な事実を理論的に証明する。
いくつかのベンチマークデータセットの実験は、理論的な結果の有効性を証明しただけでなく、我々のアプローチが比較した最先端手法よりも大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2020-07-01T18:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。