論文の概要: Mean-Pooled Cosine Similarity is Not Length-Invariant: Theory and Cross-Domain Evidence for a Length-Invariant Alternative
- arxiv url: http://arxiv.org/abs/2605.07345v1
- Date: Fri, 08 May 2026 06:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.872731
- Title: Mean-Pooled Cosine Similarity is Not Length-Invariant: Theory and Cross-Domain Evidence for a Length-Invariant Alternative
- Title(参考訳): 平均ポーリングコサイン類似性は長さ不変ではない:長さ不変な代替物の理論とクロスドメインエビデンス
- Authors: Sibayan Mitra, Dhruv Kumar,
- Abstract要約: 平均プールされたコサイン類似性は、言語、モダリティ、タスク間の神経表現を比較するためのデフォルトの指標である。
現代の変圧器表現を特徴づける異方性の下では、平均プールされたコサインは配列長で単調に成長する。
我々は、Centered Kernel Alignmentのような長さ不変のメトリクスは、クロス表現比較のデフォルトであるべきだと論じる。
- 参考スコア(独自算出の注目度): 1.5718921092089344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean-pooled cosine similarity is the default metric for comparing neural representations across languages, modalities, and tasks. We establish that this metric is not length-invariant: under the anisotropy that characterizes modern transformer representations, mean-pooled cosine grows monotonically in sequence length, independent of representational content. Empirically, on HumanEvalPack across four code LLMs, the length ratio alone explains $R^2 = 0.52$--$0.75$ of cross-language "Python proximity," while AST depth and shared-token fraction add less than 3% of explained variance beyond length. Substituting Centered Kernel Alignment (CKA) reduces explained variance by 83% and reverses the sign of the length coefficient ($β_{\mathrm{len}}: +0.86 \to -0.37$). The same pattern holds in Mistral-7B on parallel WMT pairs ($R^2 = 0.23$ EN-FR, $R^2 = 0.33$ EN-DE for cosine; $R^2 < 0.01$ for CKA). In CLIP ViT-B/32, mean-pooling reduces the length effect relative to EOS-pooling ($R^2: 0.21 \to {<}0.01$), as predicted by the theory's dependence on anisotropy. We argue that length-invariant metrics such as CKA should be the default for cross-representation comparisons, and that recent claims of cross-lingual representational convergence built on mean-pooled cosine warrant re-examination.
- Abstract(参考訳): 平均プールされたコサイン類似性は、言語、モダリティ、タスク間の神経表現を比較するためのデフォルトの指標である。
この計量は長さ不変ではなく、現代の変圧器表現を特徴付ける異方性の下で、平均プールされたコサインは、表現内容とは独立に、列長で単調に成長する。
実証的に、HumanEvalPackの4つのコード LLM で、長さ比だけでは、R^2 = 0.52$--0.75$のクロスランゲージな"Python近接性"を説明できる。
CKA(Centered Kernel Alignment)の置換は、説明された分散を83%削減し、長さ係数の符号を反転させる(β_{\mathrm{len}}: +0.86 \to -0.37$)。
同じパターンはMistral-7B において並列 WMT 対 (R^2 = 0.23$ EN-FR, $R^2 = 0.33$ EN-DE for cosine; $R^2 < 0.01$ for CKA) で保持される。
CLIP ViT-B/32では、平均プーリングは、理論の異方性への依存によって予測されるEOSプーリング(R^2: 0.21 \to {<}0.01$)に対する長さ効果を減少させる。
我々は、CKAのような長さ不変なメトリクスは、クロス表現比較のデフォルトであるべきであり、また、平均プールされたコサイン保証の再検査に基づいて構築された言語間表現収束の最近の主張を論じる。
関連論文リスト
- The E$Δ$-MHC-Geo Transformer: Adaptive Geodesic Operations with Guaranteed Orthogonality [2.28438857884398]
E$-MHC-Geo Transformerは、Manifold-Constrained Hyper-Connections (mHC)、Deep Delta Learning (DDL)、Cayley変換を統一する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-05-07T11:37:23Z) - Scaling Federated Linear Contextual Bandits via Sketching [49.12000877146222]
本稿では,FSCLB(Federated Sketch Contextual Linear Bandits)を提案する。
合成と実世界の両方のデータセットの実験では、FSCLBは計算と通信のコストを90%以上削減している。
論文 参考訳(メタデータ) (2026-05-01T08:22:06Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - Neural-network quantum state study of the long-range antiferromagnetic Ising chain [0.771303749110121]
横磁場イジング鎖の反強磁性相互作用を代数的に減衰させた反強磁性相互作用における量子相転移について検討する。
SR極限の普遍比が$alpha_mathrmLR 2$で成り立たないことが、臨界度の偏りを示唆している。
論文 参考訳(メタデータ) (2023-08-18T17:58:36Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。