論文の概要: Evaluating the impact of word embeddings on similarity scoring in practical information retrieval
- arxiv url: http://arxiv.org/abs/2602.05734v1
- Date: Thu, 05 Feb 2026 14:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.988835
- Title: Evaluating the impact of word embeddings on similarity scoring in practical information retrieval
- Title(参考訳): 単語埋め込みが情報検索における類似度評価に及ぼす影響評価
- Authors: Niall McCarroll, Kevin Curran, Eugene McNamee, Angela Clist, Andrew Brammer,
- Abstract要約: ベクトル空間モデリング(VSM)とニューラルワード埋め込みは、現代の機械学習と自然言語処理パイプラインにおいて重要な役割を果たす。
本稿では,ニューラルワード埋め込みのセントロイドの共通類似度尺度から離れて,クエリ文の類似度を測定する方法を提案する。
- 参考スコア(独自算出の注目度): 0.5872014229110214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Search behaviour is characterised using synonymy and polysemy as users often want to search information based on meaning. Semantic representation strategies represent a move towards richer associative connections that can adequately capture this complex usage of language. Vector Space Modelling (VSM) and neural word embeddings play a crucial role in modern machine learning and Natural Language Processing (NLP) pipelines. Embeddings use distributional semantics to represent words, sentences, paragraphs or entire documents as vectors in high dimensional spaces. This can be leveraged by Information Retrieval (IR) systems to exploit the semantic relatedness between queries and answers. This paper evaluates an alternative approach to measuring query statement similarity that moves away from the common similarity measure of centroids of neural word embeddings. Motivated by the Word Movers Distance (WMD) model, similarity is evaluated using the distance between individual words of queries and statements. Results from ranked query and response statements demonstrate significant gains in accuracy using the combined approach of similarity ranking through WMD with the word embedding techniques. The top performing WMD + GloVe combination outperforms all other state-of-the-art retrieval models including Doc2Vec and the baseline LSA model. Along with the significant gains in performance of similarity ranking through WMD, we conclude that the use of pre-trained word embeddings, trained on vast amounts of data, result in domain agnostic language processing solutions that are portable to diverse business use-cases.
- Abstract(参考訳): 検索行動は、意味に基づいて情報を検索したい場合が多いため、同義語や多義語で特徴づけられる。
意味表現戦略は、この複雑な言語の使用を適切に捉えることができるよりリッチな連想接続への動きを表している。
ベクトル空間モデリング(VSM)とニューラルワード埋め込みは、現代の機械学習と自然言語処理(NLP)パイプラインにおいて重要な役割を果たす。
埋め込みは、高次元空間におけるベクトルとして、単語、文、段落、文書全体を表現するために分布意味論を使用する。
これは、クエリと回答間のセマンティックな関連性を利用するために、Information Retrieval (IR)システムによって利用することができる。
本稿では,ニューラルワード埋め込みのセントロイドの共通類似度尺度から離れて,クエリ文の類似度を測定する方法を提案する。
Word Movers Distance(WMD)モデルによって動機付けられた類似性は、クエリの個々の単語と文間の距離を用いて評価される。
単語埋め込み手法とWMDによる類似度ランキングの併用手法を用いて,ランク付けされたクエリと応答文の精度が著しく向上したことを示す。
WMD+GloVeの組み合わせはDoc2VecやベースラインのLAAモデルなど、最先端の検索モデルよりも優れています。
WMDによる類似性ランキングの性能向上とともに、大量のデータに基づいて訓練された事前学習された単語埋め込みの使用により、ドメインに依存しない言語処理ソリューションが、多様なビジネスユースケースに移植可能であると結論付けている。
関連論文リスト
- Comparing how Large Language Models perform against keyword-based searches for social science research data discovery [4.121634776585654]
本稿では,従来のキーワードに基づくデータ探索と比較して,大規模言語モデル(LLM)に基づく意味探索ツールの性能を評価する。
論文 参考訳(メタデータ) (2026-01-27T12:51:45Z) - LGDE: Local Graph-based Dictionary Expansion [1.5024014082112034]
ローカルグラフベース辞書拡張(英: Local Graph-based Dictionary Expansion、LGDE)は、単語の意味的近傍をデータ駆動で発見する手法である。
この結果から,LGDEは,単語の類似性や共起性に基づく手法と比較して,性能の向上を図ったキーワードのリストを充実させることがわかった。
実験結果と専門ユーザ評価の結果から,LGDEは,多様体学習に基づく類似性ネットワークにより,より有用なキーワードでシード辞書を拡張していることが示唆された。
論文 参考訳(メタデータ) (2024-05-13T14:07:15Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。