論文の概要: Distance-to-Distance Ratio: A Similarity Measure for Sentences Based on Rate of Change in LLM Embeddings
- arxiv url: http://arxiv.org/abs/2601.17705v1
- Date: Sun, 25 Jan 2026 05:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.22331
- Title: Distance-to-Distance Ratio: A Similarity Measure for Sentences Based on Rate of Change in LLM Embeddings
- Title(参考訳): 距離対距離比:LLM埋め込みにおける変化率に基づく文の類似度尺度
- Authors: Abdullah Qureshi, Kenneth Rice, Alexander Wolpert,
- Abstract要約: テキスト埋め込み間の類似性の尺度は、テキスト間の類似性の人間の知覚に固執する場合に限って適切なものとみなすことができる。
本稿では,LLM文の埋め込みの類似性の新たな尺度である距離距離比(DDR)を紹介する。
DDRは、最小限の編集下であっても、意味的に類似したテキストと異種テキストの間で、より細かい識別を一貫して提供することを実証する。
- 参考スコア(独自算出の注目度): 42.62375489828108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A measure of similarity between text embeddings can be considered adequate only if it adheres to the human perception of similarity between texts. In this paper, we introduce the distance-to-distance ratio (DDR), a novel measure of similarity between LLM sentence embeddings. Inspired by Lipschitz continuity, DDR measures the rate of change in similarity between the pre-context word embeddings and the similarity between post-context LLM embeddings, thus measuring the semantic influence of context. We evaluate the performance of DDR in experiments designed as a series of perturbations applied to sentences drawn from a sentence dataset. For each sentence, we generate variants by replacing one, two, or three words with either synonyms, which constitute semantically similar text, or randomly chosen words, which constitute semantically dissimilar text. We compare the performance of DDR with other prevailing similarity metrics and demonstrate that DDR consistently provides finer discrimination between semantically similar and dissimilar texts, even under minimal, controlled edits.
- Abstract(参考訳): テキスト埋め込み間の類似性の尺度は、テキスト間の類似性の人間の知覚に固執する場合に限って適切なものとみなすことができる。
本稿では,LLM文の埋め込みの類似性の新たな尺度である距離距離距離比(DDR)を紹介する。
リプシッツ連続性にインスパイアされたDDRは、プレコンテクスト語埋め込みとポストコンテクストLLM埋め込みの類似度の変化率を測定し、文脈の意味的影響を測定する。
文データセットから抽出した文に対する一連の摂動として設計した実験におけるDDRの性能を評価する。
各文に対して、意味的に類似したテキストを構成する同義語と、意味的に異なるテキストを構成するランダムに選択された単語とを置換することにより、変種を生成する。
我々はDDRの性能を他の一般的な類似度指標と比較し、DDRが最小限の編集でも意味論的に類似したテキストと異種テキストの区別を一貫して行うことを示した。
関連論文リスト
- A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Improving word mover's distance by leveraging self-attention matrix [7.934452214142754]
提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
論文 参考訳(メタデータ) (2022-11-11T14:25:08Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Toward Interpretable Semantic Textual Similarity via Optimal
Transport-based Contrastive Sentence Learning [29.462788855992617]
文間距離を輸送問題に基づく文脈化トークン距離の重み付け和として記述する。
次に、RCMDと呼ばれる最適輸送に基づく距離測定を行い、意味的に整合したトークンペアを特定し、活用する。
最後に,文ペアのRCMDを最適化するコントラスト学習フレームワークであるCLRCMDを提案する。
論文 参考訳(メタデータ) (2022-02-26T17:28:02Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - RPD: A Distance Function Between Word Embeddings [38.88777272914917]
相対的ペアワイド内積距離(RPD)は、単語埋め込みの異なるセット間の距離を定量化する新しい計量である。
本研究では,異なるアルゴリズムの単語埋め込みの関係を体系的に研究し,異なる学習プロセスとコーパスの影響について検討する。
論文 参考訳(メタデータ) (2020-05-16T21:53:31Z) - Style-transfer and Paraphrase: Looking for a Sensible Semantic
Similarity Metric [18.313879914379005]
文献で広く使われている指標のどれも、これらの課題における人間の判断に十分近いものではないことを示す。
最近提案されたいくつかのメトリクスは同等の結果を提供するが、Word Mover Distanceが最も合理的なソリューションであることが示されている。
論文 参考訳(メタデータ) (2020-04-10T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。