論文の概要: Document Similarity from Vector Space Densities
- arxiv url: http://arxiv.org/abs/2009.00672v1
- Date: Tue, 1 Sep 2020 19:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:36:17.927925
- Title: Document Similarity from Vector Space Densities
- Title(参考訳): ベクトル空間密度からの文書類似性
- Authors: Ilia Rushkin
- Abstract要約: テキスト間の類似性を推定する手法を提案する。
この方法は、高次元ユークリッド空間に埋め込まれた単語と、カーネル回帰に基づいている。
この手法の精度は最先端の手法とほぼ同じであるが,高速化は極めて重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a computationally light method for estimating similarities between
text documents, which we call the density similarity (DS) method. The method is
based on a word embedding in a high-dimensional Euclidean space and on kernel
regression, and takes into account semantic relations among words. We find that
the accuracy of this method is virtually the same as that of a state-of-the-art
method, while the gain in speed is very substantial. Additionally, we introduce
generalized versions of the top-k accuracy metric and of the Jaccard metric of
agreement between similarity models.
- Abstract(参考訳): 本研究では,密度類似度(ds)法と呼ばれるテキスト文書間の類似度を計算的に推定する手法を提案する。
この方法は、高次元ユークリッド空間に埋め込まれた単語と、カーネル回帰に基づいており、単語間の意味関係を考慮に入れる。
この手法の精度は最先端の手法とほぼ同じであるが,高速化は極めて重要である。
さらに,top-k精度メトリクスの一般化版と,類似度モデル間の合意のjaccardメトリックを導入する。
関連論文リスト
- Rethinking Distance Metrics for Counterfactual Explainability [53.436414009687]
本研究では, 反事実を参照領域から独立して引き出すのではなく, 基礎となるデータ分布からの参照と共同してサンプリングする, 反事実生成手法のフレーミングについて検討する。
我々は、幅広い設定に適用可能な、反ファクト的な類似性のために調整された距離メートル法を導出する。
論文 参考訳(メタデータ) (2024-10-18T15:06:50Z) - COS-Mix: Cosine Similarity and Distance Fusion for Improved Information Retrieval [0.0]
本研究では,レトリーバル拡張生成(RAG)のための新しいハイブリッド検索手法を提案する。
伝統的なコサイン類似度尺度は、高次元空間におけるベクトル間の類似度を捉えるために広く用いられている。
ベクトル間の相似性を定量化することにより、相補的な視点を提供するためにコサイン距離測度を組み込む。
論文 参考訳(メタデータ) (2024-06-02T06:48:43Z) - Semantic similarity prediction is better than other semantic similarity
measures [5.176134438571082]
意味的類似度を測ることのみに関心がある場合、そのようなタスクのために微調整されたモデルを用いて、その類似度を直接予測する方がよいと論じる。
GLUEベンチマークから得られたセマンティックテキスト類似性ベンチマークタスク(STS-B)の微調整モデルを用いて、STSScoreアプローチを定義し、その結果の類似性は他の手法よりも堅牢なセマンティック類似性尺度に対する期待に合致していることを示す。
論文 参考訳(メタデータ) (2023-09-22T08:11:01Z) - A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - Instance Similarity Learning for Unsupervised Feature Representation [83.31011038813459]
教師なし特徴表現のための例類似性学習(ISL)手法を提案する。
我々はGAN(Generative Adversarial Networks)を用いて、基礎となる特徴多様体をマイニングする。
画像分類実験は, 最先端手法と比較して, 提案手法の優位性を示した。
論文 参考訳(メタデータ) (2021-08-05T16:42:06Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z) - Style-transfer and Paraphrase: Looking for a Sensible Semantic
Similarity Metric [18.313879914379005]
文献で広く使われている指標のどれも、これらの課題における人間の判断に十分近いものではないことを示す。
最近提案されたいくつかのメトリクスは同等の結果を提供するが、Word Mover Distanceが最も合理的なソリューションであることが示されている。
論文 参考訳(メタデータ) (2020-04-10T11:52:06Z) - Learning Flat Latent Manifolds with VAEs [16.725880610265378]
本稿では、ユークリッド計量がデータポイント間の類似性のプロキシとなる変分自動エンコーダのフレームワークの拡張を提案する。
我々は、変分オートエンコーダで一般的に使用されるコンパクトな以前のものを、最近発表されたより表現力のある階層型に置き換える。
提案手法は,ビデオ追跡ベンチマークを含む,さまざまなデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-12T09:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。