論文の概要: Why Mean Pooling Works: Quantifying Second-Order Collapse in Text Embeddings
- arxiv url: http://arxiv.org/abs/2604.27398v1
- Date: Thu, 30 Apr 2026 04:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.919954
- Title: Why Mean Pooling Works: Quantifying Second-Order Collapse in Text Embeddings
- Title(参考訳): テキスト埋め込みで2階の崩壊を定量化する「Mean Pooling」
- Authors: Tomomasa Hara, Hiroto Kurita, Masaaki Imaizumi, Kentaro Inui, Sho Yokoi,
- Abstract要約: トークンの埋め込みを平均化する平均プールは、テキストの埋め込みを構築するための標準的なアプローチである。
本稿では,実際のモデルにおいて,プールが実際に有効であるかどうかを検討する。
- 参考スコア(独自算出の注目度): 30.943998879066857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For constructing text embeddings, mean pooling, which averages token embeddings, is the standard approach. This paper examines whether mean pooling actually works well in real models. First, we note that mean pooling can collapse information beyond the first-order statistics of the token embeddings, such as second-order statistics that capture their spatial structure, potentially mapping distinct token embedding distributions to similar text embeddings. Motivated by this concern, we propose a simple metric to quantify such a collapse induced by mean pooling. Then, using this metric, we empirically measure how often this collapse occurs in actual models and texts, and find that modern text encoders are robust to this collapse. In particular, contrastive fine-tuned text encoders tend to be less prone to the collapse than their pretrained backbone models. We also find that the robustness of these text encoders lies in the concentration of token embeddings within each text. In addition, we find that robustness to the collapse, as quantified by our proposed metric, correlates with downstream task performance. Overall, our findings offer a new perspective on why modern text encoders remain effective despite relying on seemingly coarse mean pooling.
- Abstract(参考訳): テキスト埋め込みを構築する場合、平均的なトークン埋め込みである平均プールは標準的なアプローチである。
本稿では,実際のモデルにおいて,プールが実際に有効であるかどうかを検討する。
まず,空間構造を捉えた2次統計や,異なるトークン埋め込み分布を類似したテキスト埋め込みにマッピングする可能性など,トークン埋め込みの1次統計以上の情報をプールすることで,プールが崩壊する可能性があることに留意する。
この懸念に乗じて、平均プーリングによって引き起こされる崩壊を定量化するための簡単な計量法を提案する。
そして、この測定値を用いて、実際のモデルやテキストでこの崩壊の発生頻度を実証的に測定し、現代のテキストエンコーダがこの崩壊に対して堅牢であることを示す。
特に、対照的に微調整されたテキストエンコーダは、事前訓練されたバックボーンモデルよりも崩壊しやすい傾向にある。
また、これらのテキストエンコーダのロバスト性は、各テキストにトークンの埋め込みが集中していることが分かる。
さらに,この崩壊に対するロバスト性は,提案した指標によって定量化され,下流タスク性能と相関することがわかった。
全体として、この発見は、最近のテキストエンコーダが、粗い平均プールに依存しているにもかかわらず、なぜ有効であるのか、新たな視点を提供する。
関連論文リスト
- The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。