論文の概要: On Strengths and Limitations of Single-Vector Embeddings
- arxiv url: http://arxiv.org/abs/2603.29519v1
- Date: Tue, 31 Mar 2026 10:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.478208
- Title: On Strengths and Limitations of Single-Vector Embeddings
- Title(参考訳): 単ベクトル埋め込みの強度と限界について
- Authors: Archish S, Mihir Agarwal, Ankit Garg, Neeraj Kayal, Kirankumar Shiragur,
- Abstract要約: 次元性だけでは観察された失敗を説明できないことを示す。
ドメインシフトと、埋め込み類似性とタスクの基本的な概念との相違が、主要なコントリビュータであることに気付きました。
- 参考スコア(独自算出の注目度): 13.712240635014775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work (Weller et al., 2025) introduced a naturalistic dataset called LIMIT and showed empirically that a wide range of popular single-vector embedding models suffer substantial drops in retrieval quality, raising concerns about the reliability of single-vector embeddings for retrieval. Although (Weller et al., 2025) proposed limited dimensionality as the main factor contributing to this, we show that dimensionality alone cannot explain the observed failures. We observe from results in (Alon et al., 2016) that $2k+1$-dimensional vector embeddings suffice for top-$k$ retrieval. This result points to other drivers of poor performance. Controlling for tokenization artifacts and linguistic similarity between attributes yields only modest gains. In contrast, we find that domain shift and misalignment between embedding similarities and the task's underlying notion of relevance are major contributors; finetuning mitigates these effects and can improve recall substantially. Even with finetuning, however, single-vector models remain markedly weaker than multi-vector representations, pointing to fundamental limitations. Moreover, finetuning single-vector models on LIMIT-like datasets leads to catastrophic forgetting (performance on MSMARCO drops by more than 40%), whereas forgetting for multi-vector models is minimal. To better understand the gap between performance of single-vector and multi-vector models, we study the drowning in documents paradox (Reimers \& Gurevych, 2021; Jacob et al., 2025): as the corpus grows, relevant documents are increasingly "drowned out" because embedding similarities behave, in part, like noisy statistical proxies for relevance. Through experiments and mathematical calculations on toy mathematical models, we illustrate why single-vector models are more susceptible to drowning effects compared to multi-vector models.
- Abstract(参考訳): 最近の研究 (Weller et al , 2025) では、LIMITと呼ばれる自然主義的なデータセットを導入し、一般的な単一ベクトル埋め込みモデルが検索品質の大幅な低下に悩まされ、単一のベクトル埋め込みの信頼性への懸念が高まっていることを実証的に示した。
Weller et al , 2025) はこれに寄与する主要因として, 有限次元性を提案したが, 観測された失敗は, 次元性だけでは説明できないことを示した。
我々は (Alon et al , 2016) の結果から, 2k+1$-dimensional vector embeddeds suffices suffices for top-k$ search。
この結果は、パフォーマンスの悪い他のドライバを指し示します。
トークン化アーティファクトの制御と属性間の言語的類似性は、控えめな利得しか得られない。
対照的に、埋め込み類似性とタスクの関連性の概念との間のドメインシフトとミスアライメントは主要な貢献者であり、微調整はこれらの効果を緩和し、リコールを大幅に改善することができる。
しかし、微調整であっても、単一ベクトルモデルはマルチベクトル表現よりも著しく弱いままであり、基本的な限界を示している。
さらに、LIMITライクなデータセット上で単一ベクトルモデルを微調整すると、破滅的な忘れ(MSMARCOの性能は40%以上低下する)につながるが、マルチベクトルモデルの忘れは最小限である。
単一ベクトルモデルとマルチベクトルモデルのパフォーマンスのギャップをよりよく理解するために、パラドックス(Reimers \& Gurevych, 2021; Jacob et al , 2025): コーパスが成長するにつれて、関連する文書はますます「ドラッグアウト」されている。
おもちゃの数学的モデルに関する実験と数理計算を通じて、単一ベクトルモデルがマルチベクトルモデルと比較して溺れの影響を受けやすい理由を説明している。
関連論文リスト
- Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Representation Tuning [0.0]
アクティベーションエンジニアリングは、大規模言語モデルのオンライン制御手段として、ますます人気が高まっている。
本研究では,これらのベクトルを直接モデルにチューニングするために,興味の行動方向を表すベクトルを用いた推論時ステアリングの概念を拡張する。
論文 参考訳(メタデータ) (2024-09-11T00:56:02Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Learning Ising models from one or multiple samples [26.00403702328348]
我々は一サンプル推定の保証を提供し、相互作用行列の族における計量エントロピーの観点から推定誤差を定量化する。
我々の技術的アプローチは、モデルの相互作用ネットワークをスパース化し、結果の条件分布への依存性を十分に弱める変数のサブセットを条件付けすることの恩恵を受ける。
論文 参考訳(メタデータ) (2020-04-20T15:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。