論文の概要: Measuring the relatedness between scientific publications using controlled vocabularies
- arxiv url: http://arxiv.org/abs/2602.14755v1
- Date: Mon, 16 Feb 2026 13:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.444901
- Title: Measuring the relatedness between scientific publications using controlled vocabularies
- Title(参考訳): 制御語彙を用いた学術出版物の関連性の測定
- Authors: Emil Dolmer Alnor,
- Abstract要約: 制御された語彙は関連性を測定するための有望な基礎を提供し、サルトンのコサイン類似性と組み合わせて広く用いられている。
本稿では、非マッチング項間の意味的類似性を考慮した2つの代替手法(ソフトコサインと最大項類似性)を紹介する。
結果は、ソフトコサインが最も正確な方法であるが、サルトンのコサインの最も広く使われているバージョンは他の試験方法よりも明らかに正確ではないことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring the relatedness between scientific publications is essential in many areas of bibliometrics and science policy. Controlled vocabularies provide a promising basis for measuring relatedness and are widely used in combination with Salton's cosine similarity. The latter is problematic because it only considers exact matches between terms. This article introduces two alternative methods - soft cosine and maximum term similarities - that account for the semantic similarity between non-matching terms. The article compares the accuracy of all three methods using the assignment of publications to topics in the TREC 2006 Genomics Track and the assumption that accurate relatedness measures should assign high relatedness scores to publication pairs within the same topic and low scores to pairs from separate topics. Results show that soft cosine is the most accurate method, while the most widely used version of Salton's cosine is markedly less accurate than the other methods tested. These findings have implications for how controlled vocabularies should be used to measure relatedness.
- Abstract(参考訳): 学術出版物間の関連性を測定することは、書誌学や科学政策の多くの分野において不可欠である。
制御された語彙は関連性を測定するための有望な基礎を提供し、サルトンのコサイン類似性と組み合わせて広く用いられている。
後者は、用語間の正確な一致しか考慮していないため、問題である。
本稿では、非マッチング項間の意味的類似性を考慮した2つの代替手法(ソフトコサインと最大項類似性)を紹介する。
本論文は, TREC2006 ゲノミクストラックのトピックに対する出版物の割り当てを用いた3つの手法の精度を比較し, 関連度尺度が同一トピック内のパブリッシュペアに高い関連度スコアを割り当て, 別トピックからのペアに低いスコアを割り当てるべきという仮定と比較した。
結果は、ソフトコサインが最も正確な方法であるが、サルトンのコサインの最も広く使われているバージョンは他の試験方法よりも明らかに正確ではないことを示している。
これらの知見は, 関連性を測定するために, 制御語彙をどのように使うべきかを示唆するものである。
関連論文リスト
- Measuring publication relatedness using controlled vocabularies [0.0]
制御された語彙は関連性を測定するための有望な基盤を提供する。
様々な種類の研究課題に対して、その正確さと適合性に関する包括的かつ直接的なテストは存在しない。
本稿では,既存の測度をレビューし,新しい測度を開発し,TRECゲノミクスデータを用いた測度をトピックの基礎的真理として評価する。
論文 参考訳(メタデータ) (2024-08-27T12:41:37Z) - Solving Cosine Similarity Underestimation between High Frequency Words
by L2 Norm Discounting [19.12036493733793]
本稿では,単語間のコサイン類似度を測定する際に,その単語の周波数に埋め込まれた文脈化された単語のL2ノルムをコーパスに分解する手法を提案する。
文脈的単語類似度データセットの実験結果から,提案手法は類似度推定の難しさを正確に解決することを示した。
論文 参考訳(メタデータ) (2023-05-17T23:41:30Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Comparing in context: Improving cosine similarity measures with a metric
tensor [0.0]
コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。
そこで我々は,そのタスクの性能向上のために,拡張されたコサイン類似度尺度を用いることを提案する。
我々は、文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、常に改善を示す。
また、SimLex-999 と WordSim-353 のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットを学習した全コンテキスト類似度尺度の独立したテストセットとして使用する。
論文 参考訳(メタデータ) (2022-03-28T18:04:26Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - MuSeM: Detecting Incongruent News Headlines using Mutual Attentive
Semantic Matching [7.608480381965392]
2つのテキスト間の一致を測定することは、Web上での偽ニュースや誤解を招くニュースの見出しの検出など、いくつかの有用な応用をもたらす。
本稿では,オリジナルと合成した見出しの相互注意に基づくセマンティックマッチング手法を提案する。
提案手法は,2つの公開データセットに対して,先行技術よりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T19:19:42Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。