Fugu-MT 論文翻訳(概要): Why not to use Cosine Similarity between Label Representations

論文の概要: Why not to use Cosine Similarity between Label Representations

arxiv url: http://arxiv.org/abs/2603.29488v1
Date: Tue, 31 Mar 2026 09:33:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.448642
Title: Why not to use Cosine Similarity between Label Representations
Title（参考訳）: ラベル表現のコサイン類似性を利用したい理由
Authors: Beatrix M. G. Nielsen,
Abstract要約: コサイン類似度はしばしばベクトルの類似度を測定するために用いられる。モデル表現のコサイン類似性がモデル動作について何かを教えてくれることは保証されていない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Cosine similarity is often used to measure the similarity of vectors. These vectors might be the representations of neural network models. However, it is not guaranteed that cosine similarity of model representations will tell us anything about model behaviour. In this paper we show that when using a softmax classifier, be it an image classifier or an autoregressive language model, measuring the cosine similarity between label representations (called unembeddings in the paper) does not give any information on the probabilities assigned by the model. Specifically, we prove that for any softmax classifier model, given two label representations, it is possible to make another model which gives the same probabilities for all labels and inputs, but where the cosine similarity between the representations is now either 1 or -1. We give specific examples of models with very high or low cosine simlarity between representations and show how to we can make equivalent models where the cosine similarity is now -1 or 1. This translation ambiguity can be fixed by centering the label representations, however, labels with representations with low cosine similarity can still have high probability for the same inputs. Fixing the length of the representations still does not give a guarantee that high(or low) cosine similarity will give high(or low) probability to the labels for the same inputs. This means that when working with softmax classifiers, cosine similarity values between label representations should not be used to explain model probabilities.
Abstract（参考訳）: コサイン類似度はしばしばベクトルの類似度を測定するために用いられる。これらのベクトルはニューラルネットワークモデルの表現かもしれない。しかし、モデル表現のコサイン類似性がモデル動作について何かを教えてくれることは保証されていない。本稿では,画像分類器や自己回帰言語モデルなどのソフトマックス分類器を使用する場合,ラベル表現間のコサイン類似度(論文ではアン埋め込みと呼ばれる)を計測しても,モデルに割り当てられた確率に関する情報は得られないことを示す。具体的には、任意のソフトマックス分類器モデルに対し、2つのラベル表現が与えられた場合、すべてのラベルと入力に対して同じ確率を与える別のモデルを作ることができるが、表現間のコサイン類似性は現在1または1である。表現間の非常に高あるいは低コサイン類似度を持つモデルの具体的な例を示し、コサイン類似度が -1 または 1 となるような同値なモデルを作る方法を示す。この変換のあいまいさはラベル表現を集中させることで固定できるが、コサイン類似度が低いラベルは同じ入力に対して高い確率を持つことができる。表現の長さを固定しても、高い(または低い)コサイン類似性が同じ入力に対してラベルに高い(または低い)確率を与えるという保証は得られない。これは、ソフトマックス分類器で作業する場合、ラベル表現間のコサイン類似性値はモデル確率を説明するために使用すべきでないことを意味する。

関連論文リスト

Bridging Functional and Representational Similarity via Usable Information [3.9189279162842854]
テクスチャブルな情報のレンズを通して表現間の類似性を定量化する統一的な枠組みを提案する。まず,機能的類似性に対処し,縫合性能と条件付き相互情報との正式なリンクを確立する。第2に、表現的類似性について、特定の制約の下で使用可能な情報の推定器として、再構成に基づくメトリクスと標準ツールが機能することを証明する。
論文参考訳（メタデータ） (2026-01-29T11:30:55Z)
When Does Closeness in Distribution Imply Representational Similarity? An Identifiability Perspective [9.578534178372829]
モデル分布間の小さなKullback--Leibler分散は、対応する表現が類似していることを保証するものではないことを証明する。次に、近接性が表現的類似性を意味する分布距離を定義する。合成実験において、より広いネットワークは我々の距離に近づき、より類似した表現を持つ分布を学習する。
論文参考訳（メタデータ） (2025-06-04T09:44:22Z)
On Affine Homotopy between Language Encoders [127.55969928213248]
言語エンコーダのエファフィンアライメント特性について検討する。アフィンアライメントは基本的には類似性の非対称な概念であるが、外生的類似性についてはいまだに有益である。
論文参考訳（メタデータ） (2024-06-04T13:58:28Z)
Is Cosine-Similarity of Embeddings Really About Similarity? [46.75365717794515]
コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
論文参考訳（メタデータ） (2024-03-08T16:48:20Z)
Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文参考訳（メタデータ） (2023-10-23T04:35:58Z)
Norm-Scaling for Out-of-Distribution Detection [6.309365332210523]
アウト・オブ・ディストリビューション(OoD)入力は、データセットの真の基盤分布に属さない例である。本稿では,各クラスごとに個別にロジットを正規化するノルムスケーリングを提案する。 AUROCは9.78%,AUPRは5.99%,FPR95は33.19%改善した。
論文参考訳（メタデータ） (2022-05-06T22:31:36Z)
Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。 CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文参考訳（メタデータ） (2022-03-28T17:35:31Z)
Duality-Induced Regularizer for Semantic Matching Knowledge Graph Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文参考訳（メタデータ） (2022-03-24T09:24:39Z)
Graph Attention Transformer Network for Multi-Label Image Classification [50.0297353509294]
複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための一般的なフレームワークを提案する。提案手法は3つのデータセット上で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-03-08T12:39:05Z)
Exploiting Class Similarity for Machine Learning with Confidence Labels and Projective Loss Functions [0.0]
クラスラベルは相互に関連付けられており、特定のクラスラベルは他のクラスと類似している。現在のラベリング技術では、このような類似情報を明示的に捉えられていない。ノイズラベルは、クラス類似性から生じる難易度の結果であると考えるので、ノイズラベルを用いたニューラルネットワークのトレーニングに使用しています。
論文参考訳（メタデータ） (2021-03-25T04:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。