論文の概要: Word Rotator's Distance
- arxiv url: http://arxiv.org/abs/2004.15003v3
- Date: Mon, 16 Nov 2020 17:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:42:06.699566
- Title: Word Rotator's Distance
- Title(参考訳): 単語回転子の距離
- Authors: Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui
- Abstract要約: テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
- 参考スコア(独自算出の注目度): 50.67809662270474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key principle in assessing textual similarity is measuring the degree of
semantic overlap between two texts by considering the word alignment. Such
alignment-based approaches are intuitive and interpretable; however, they are
empirically inferior to the simple cosine similarity between general-purpose
sentence vectors. To address this issue, we focus on and demonstrate the fact
that the norm of word vectors is a good proxy for word importance, and their
angle is a good proxy for word similarity. Alignment-based approaches do not
distinguish them, whereas sentence-vector approaches automatically use the norm
as the word importance. Accordingly, we propose a method that first decouples
word vectors into their norm and direction, and then computes alignment-based
similarity using earth mover's distance (i.e., optimal transport cost), which
we refer to as word rotator's distance. Besides, we find how to grow the norm
and direction of word vectors (vector converter), which is a new systematic
approach derived from sentence-vector estimation methods. On several textual
similarity datasets, the combination of these simple proposed methods
outperformed not only alignment-based approaches but also strong baselines. The
source code is available at https://github.com/eumesy/wrd
- Abstract(参考訳): テキストの類似性を評価する上で重要な原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
このようなアライメントに基づくアプローチは直感的で解釈可能であるが、汎用文ベクトル間の単純なコサイン類似性よりも経験的に劣る。
この問題に対処するために,単語ベクトルのノルムが単語重要性のよいプロキシであり,それらの角度が単語類似性のよいプロキシであるという事実に注目し,実証する。
アライメントに基づくアプローチはそれらを区別しないが、文ベクトルのアプローチは自動的にノルムを単語の重要性として使用する。
そこで我々は,まず,単語ベクトルをそのノルムと方向に分解し,次に,単語回転子距離(最適輸送コスト)を用いてアライメントに基づく類似性を計算する手法を提案する。
さらに,文ベクトル推定法から導かれる新しい体系的アプローチである単語ベクトル(ベクトル変換器)のノルムと方向をいかに成長させるかを見出した。
いくつかのテキスト類似性データセットにおいて、これらの単純な手法の組み合わせはアライメントに基づくアプローチだけでなく、強力なベースラインよりも優れていた。
ソースコードはhttps://github.com/eumesy/wrdで入手できる。
関連論文リスト
- Contextualized Word Vector-based Methods for Discovering Semantic
Differences with No Training nor Word Alignment [17.229611956178818]
2つのコーパスに現れる単語の意味的差異を検出する手法を提案する。
キーとなる考え方は、意味のカバレッジはその平均語ベクトルのノルムに反映されるということである。
これらの利点は、原住民や非先住民のイングランドのコーパスや、歴史的コーパスにも見られる。
論文 参考訳(メタデータ) (2023-05-19T08:27:17Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Improving word mover's distance by leveraging self-attention matrix [7.934452214142754]
提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
論文 参考訳(メタデータ) (2022-11-11T14:25:08Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning [80.36076044023581]
名前付きエンティティ認識(NER)のための効率的なバイエンコーダフレームワークを提案する。
我々はNERを、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題とみなす。
NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。
論文 参考訳(メタデータ) (2022-08-30T23:19:04Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Wasserstein Distance Regularized Sequence Representation for Text
Matching in Asymmetrical Domains [51.91456788949489]
WD-Matchと呼ばれる非対称領域におけるテキストマッチングに適した新しいマッチング手法を提案する。
WD-Matchでは、ワッサーシュタイン距離に基づく正規化器が定義され、異なる領域から投影される特徴ベクトルを正規化する。
WD-Matchのトレーニングプロセスは、ワッサースタイン距離によって正規化されるマッチング損失を最小限に抑えるゲームに相当する。
論文 参考訳(メタデータ) (2020-10-15T12:52:09Z) - Principal Word Vectors [5.64434321651888]
単語をベクトル空間に埋め込むための主成分分析を一般化する。
主語ベクトルの拡散と識別性は他の単語埋め込み法よりも高いことを示す。
論文 参考訳(メタデータ) (2020-07-09T08:29:57Z) - Discovering linguistic (ir)regularities in word embeddings through
max-margin separating hyperplanes [0.0]
単語埋め込み空間において,関係する単語の相対的な位置を学習するための新しい手法を示す。
私たちのモデルであるSVMCosは、単語埋め込みのトレーニングにおいて、さまざまな実験的な選択に対して堅牢です。
論文 参考訳(メタデータ) (2020-03-07T20:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。