論文の概要: Magnitude Matters: a Superior Class of Similarity Metrics for Holistic Semantic Understanding
- arxiv url: http://arxiv.org/abs/2509.19323v1
- Date: Fri, 12 Sep 2025 22:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.417446
- Title: Magnitude Matters: a Superior Class of Similarity Metrics for Holistic Semantic Understanding
- Title(参考訳): マグニチュード事項:全体論的意味理解のための類似度尺度の上位クラス
- Authors: V. S. Raghu Parupudi,
- Abstract要約: 本稿では,パラメータフリーで等級対応の類似度尺度を新たに提案し,厳密に評価する。
オーバーラップ類似性(OS)とハイパボリックタンジェント類似性(HTS)という2つの機能を紹介します。
結果が堅牢で一般化可能であることを確認するため,4つの最先端文埋め込みモデルを用いて包括的評価を行った。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector comparison in high dimensions is a fundamental task in NLP, yet it is dominated by two baselines: the raw dot product, which is unbounded and sensitive to vector norms, and the cosine similarity, which discards magnitude information entirely. This paper challenges both standards by proposing and rigorously evaluating a new class of parameter-free, magnitude-aware similarity metrics. I introduce two such functions, Overlap Similarity (OS) and Hyperbolic Tangent Similarity (HTS), designed to integrate vector magnitude and alignment in a more principled manner. To ensure that my findings are robust and generalizable, I conducted a comprehensive evaluation using four state-of-the-art sentence embedding models (all-MiniLM-L6-v2, all-mpnet-base-v2, paraphrase-mpnet-base-v2, and BAAI/bge-large-en-v1.5) across a diverse suite of eight standard NLP benchmarks, including STS-B, SICK, Quora, and PAWS. Using the Wilcoxon signed-rank test for statistical significance, my results are definitive: on the tasks requiring holistic semantic understanding (paraphrase and inference), both OS and HTS provide a statistically significant improvement in Mean Squared Error over both the raw dot product and cosine similarity, regardless of the underlying embedding model.Crucially, my findings delineate the specific domain of advantage for these metrics: for tasks requiring holistic semantic understanding like paraphrase and inference, my magnitude-aware metrics offer a statistically superior alternative. This significant improvement was not observed on benchmarks designed to test highly nuanced compositional semantics (SICK, STS-B), identifying the challenge of representing compositional text as a distinct and important direction for future work.
- Abstract(参考訳): 高次元でのベクトル比較は、NLPの基本的なタスクであるが、非有界でベクトルノルムに敏感な生ドット積と、大域情報を完全に捨てるコサイン類似性という2つの基本線によって支配されている。
本稿では,パラメータフリーで等級対応の類似度尺度を新たに提案し,厳密に評価することによって,両規格の課題を提起する。
より原理的な方法でベクトルの大きさとアライメントを統合するように設計されたオーバーラップ類似(OS)とハイパーボリックタンジェント類似(HTS)という2つの機能を紹介します。
その結果, STS-B, SICK, Quora, PAWSを含む8つの標準NLPベンチマークの多種多様なスイートに対して, 4つの最先端文埋め込みモデル(all-MiniLM-L6-v2, all-mpnet-base-v2, paraphrase-mpnet-base-v2, BAAI/bge-large-en-v1.5)を用いて総合的な評価を行った。
統計学的意味理解を必要とするタスク(言い換えと推論)において、OSとHTSは、基礎となる埋め込みモデルにかかわらず、生のドット積とコサイン類似性の両方に対して平均二乗誤差を統計的に有意に改善します。
この顕著な改善は、高ニュアンスな構成意味論(SICK, STS-B)をテストするために設計されたベンチマークでは見られなかった。
関連論文リスト
- A Distance Metric for Mixed Integer Programming Instances [0.0]
Mixed-integer linear programming (MILP)は、様々な現実世界の問題に対処するための強力なツールである。
既存の類似度メトリクスは、しばしばインスタンスクラスを識別する精度を欠いているか、ラベル付きデータに大きく依存している。
本稿では,その数学的定式化から直接導出したMILPインスタンスに対する最初の数学的距離測定について紹介する。
論文 参考訳(メタデータ) (2025-07-15T07:55:09Z) - Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss [3.435381469869212]
本稿では,Sentence-BERT STSタスクのための革新的な回帰フレームワークを提案する。
これは2つの単純で効果的な損失関数、Translated ReLUとSmooth K2 Lossを提案する。
実験結果から,本手法は7つのSTSベンチマークにおいて有意な性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-06-08T02:52:43Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Semantic-aware Contrastive Learning for More Accurate Semantic Parsing [32.74456368167872]
そこで本研究では,意味表現の微粒化を学習できる意味認識型コントラスト学習アルゴリズムを提案する。
2つの標準データセットの実験により、我々の手法はMLEベースラインよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2023-01-19T07:04:32Z) - Duality-Induced Regularizer for Semantic Matching Knowledge Graph
Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。
実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2022-03-24T09:24:39Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Sentence Similarity Based on Contexts [31.135984064747607]
提案するフレームワークは,文の意味を文脈によって定義する,という中核的な考え方に基づいている。
2つの文間の意味的類似度スコアを教師なしの方法で高品質の大規模データセットを生成することができます。
論文 参考訳(メタデータ) (2021-05-17T06:03:56Z) - Logic Constrained Pointer Networks for Interpretable Textual Similarity [11.142649867439406]
本稿では, セシネルゲーティング機能を備えた新しいポインターネットワークモデルを導入し, 構成チャンクを整列させる。
両文の相違を等しく補償し、アライメントが双方向であることを保証するために、損失関数によるこのベースモデルを改善する。
このモデルは、チャンクアライメントタスクのためのベンチマークSemEvalデータセットにおいて、97.73と96.32のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-07-15T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。