論文の概要: Comparing in context: Improving cosine similarity measures with a metric
tensor
- arxiv url: http://arxiv.org/abs/2203.14996v1
- Date: Mon, 28 Mar 2022 18:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 10:20:03.336363
- Title: Comparing in context: Improving cosine similarity measures with a metric
tensor
- Title(参考訳): 文脈比較:計量テンソルを用いたコサイン類似度尺度の改善
- Authors: Isa M. Apallius de Vos, Ghislaine L. van den Boogerd, Mara D. Fennema,
Adriana D. Correia
- Abstract要約: コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。
そこで我々は,そのタスクの性能向上のために,拡張されたコサイン類似度尺度を用いることを提案する。
我々は、文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、常に改善を示す。
また、SimLex-999 と WordSim-353 のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットを学習した全コンテキスト類似度尺度の独立したテストセットとして使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cosine similarity is a widely used measure of the relatedness of pre-trained
word embeddings, trained on a language modeling goal. Datasets such as
WordSim-353 and SimLex-999 rate how similar words are according to human
annotators, and as such are often used to evaluate the performance of language
models. Thus, any improvement on the word similarity task requires an improved
word representation. In this paper, we propose instead the use of an extended
cosine similarity measure to improve performance on that task, with gains in
interpretability. We explore the hypothesis that this approach is particularly
useful if the word-similarity pairs share the same context, for which distinct
contextualized similarity measures can be learned. We first use the dataset of
Richie et al. (2020) to learn contextualized metrics and compare the results
with the baseline values obtained using the standard cosine similarity measure,
which consistently shows improvement. We also train a contextualized similarity
measure for both SimLex-999 and WordSim-353, comparing the results with the
corresponding baselines, and using these datasets as independent test sets for
the all-context similarity measure learned on the contextualized dataset,
obtaining positive results for a number of tests.
- Abstract(参考訳): コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。
wordsim-353やsimlex-999といったデータセットは、人間のアノテータによる単語の類似度を評価し、言語モデルのパフォーマンスを評価するためにしばしば使用される。
したがって、単語類似性タスクの改善には、単語表現の改善が必要である。
本稿では,そのタスクの性能向上のための拡張されたコサイン類似度尺度を,解釈可能性の向上とともに提案する。
単語類似度対が同じ文脈を共有し、異なる文脈で類似度を学習できる場合、このアプローチは特に有用である、という仮説を探求する。
まず、Richie et al. (2020) のデータセットを用いて文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、改善点を一貫して示す。
また、simlex-999とwordsim-353の両方のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットをコンテキスト化されたデータセットで学習した全コンテキスト類似度尺度の独立したテストセットとして使用し、多くのテストでポジティブな結果を得た。
関連論文リスト
- Semantic similarity prediction is better than other semantic similarity
measures [5.176134438571082]
意味的類似度を測ることのみに関心がある場合、そのようなタスクのために微調整されたモデルを用いて、その類似度を直接予測する方がよいと論じる。
GLUEベンチマークから得られたセマンティックテキスト類似性ベンチマークタスク(STS-B)の微調整モデルを用いて、STSScoreアプローチを定義し、その結果の類似性は他の手法よりも堅牢なセマンティック類似性尺度に対する期待に合致していることを示す。
論文 参考訳(メタデータ) (2023-09-22T08:11:01Z) - Automatic Design of Semantic Similarity Ensembles Using Grammatical
Evolution [0.0]
単一の意味的類似度尺度はすべてのタスクに最も適しており、研究者はパフォーマンスを確保するためにアンサンブル戦略を使うことが多い。
本研究は,意味的類似性アンサンブルを自動設計する手法を提案する。
提案手法は,人的判断の相関を最大化するアンサンブルを作成するために,まず,候補のプールから測度を自動的に選択・集約するために文法的進化を利用する。
論文 参考訳(メタデータ) (2023-07-03T10:53:05Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - ContraSim -- A Similarity Measure Based on Contrastive Learning [28.949004915740776]
コントラスト学習に基づく新しい類似度尺度であるContraSimを開発した。
ContraSimは、類似した例と異なる例の両方を用いてパラメータ化された尺度を学習する。
いずれの場合も、ContraSimは以前の類似度測定よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2023-03-29T19:43:26Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Semantic Answer Similarity for Evaluating Question Answering Models [2.279676596857721]
SASは、意味応答の類似度を推定するためのクロスエンコーダベースの計量である。
近年の変圧器モデルに基づく意味的類似度指標は,従来の語彙的類似度指標よりも人間の判断とよく相関していることを示す。
論文 参考訳(メタデータ) (2021-08-13T09:12:27Z) - Exploiting Non-Taxonomic Relations for Measuring Semantic Similarity and
Relatedness in WordNet [0.0]
本稿では,WordNetナレッジグラフなどの大規模リンクデータにおいて,あらゆる種類の非トキソノミック関係を利用する利点について検討する。
本稿では,新しい関係に基づく情報内容と非タキソノミックな重み付き経路に基づく総合的多関係手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T09:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。