論文の概要: Randomly Removing 50% of Dimensions in Text Embeddings has Minimal Impact on Retrieval and Classification Tasks
- arxiv url: http://arxiv.org/abs/2508.17744v1
- Date: Mon, 25 Aug 2025 07:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.67544
- Title: Randomly Removing 50% of Dimensions in Text Embeddings has Minimal Impact on Retrieval and Classification Tasks
- Title(参考訳): テキスト埋め込みにおける50%の寸法のランダム除去は検索・分類作業に最小限の影響を及ぼす
- Authors: Sotaro Takeshita, Yurina Takeshita, Daniel Ruffinelli, Simone Paolo Ponzetto,
- Abstract要約: テキスト埋め込みが下流のパフォーマンスに与える影響について検討する。
均一に分散した次元が多数存在すると、取り除くと実際に性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 9.013194002835123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we study the surprising impact that truncating text embeddings has on downstream performance. We consistently observe across 6 state-of-the-art text encoders and 26 downstream tasks, that randomly removing up to 50% of embedding dimensions results in only a minor drop in performance, less than 10%, in retrieval and classification tasks. Given the benefits of using smaller-sized embeddings, as well as the potential insights about text encoding, we study this phenomenon and find that, contrary to what is suggested in prior work, this is not the result of an ineffective use of representation space. Instead, we find that a large number of uniformly distributed dimensions actually cause an increase in performance when removed. This would explain why, on average, removing a large number of embedding dimensions results in a marginal drop in performance. We make similar observations when truncating the embeddings used by large language models to make next-token predictions on generative tasks, suggesting that this phenomenon is not isolated to classification or retrieval tasks.
- Abstract(参考訳): 本稿では,テキスト埋め込みがダウンストリーム性能に与える影響について検討する。
6つの最先端のテキストエンコーダと26の下流タスクを一貫して観察し、埋め込み次元の50%をランダムに除去すると、検索および分類タスクにおいて10%未満のパフォーマンスがわずかに低下する。
テキストエンコーディングに関する潜在的洞察と小型埋め込みの利点を考慮し、この現象を考察し、先行研究で示唆されていることとは対照的に、表現空間の非効率な利用の結果ではないことを見出した。
代わりに、多数の均一に分散した次元が、取り除くと実際に性能が向上することがわかった。
これは、平均して、多数の埋め込み次元を取り除くことがパフォーマンスの限界低下をもたらす理由を説明する。
我々は,大規模言語モデルが用いた埋め込みを抽出して生成タスクの次点予測を行う場合と同様の観察を行い,この現象は分類や検索タスクとは分離されていないことを示唆した。
関連論文リスト
- The Medium Is Not the Message: Deconfounding Text Embeddings via Linear Concept Erasure [91.01653854955286]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - Redundancy, Isotropy, and Intrinsic Dimensionality of Prompt-based Text Embeddings [9.879314903531286]
Promptベースのテキスト埋め込みモデルは、カスタマイズされたプロンプトを受け取るとタスク固有の埋め込みを生成する。
実験の結果, 埋め込みの次元の25%しか保持しない, 単純な次元削減であっても, 性能はわずかに低下することがわかった。
分類とクラスタリングでは、埋め込みを元の寸法の0.5%未満に減らしても、性能劣化は非常に小さい。
論文 参考訳(メタデータ) (2025-06-02T08:50:38Z) - When Dimensionality Hurts: The Role of LLM Embedding Compression for Noisy Regression Tasks [17.109522466982476]
テキストの圧縮表現は、回帰タスクにおいてより良いパフォーマンスが得られることを示す。
この結果から,感情などの解釈可能な圧縮表現の成功は,正規化効果によるものと考えられる。
論文 参考訳(メタデータ) (2025-02-04T10:23:11Z) - Static Pruning in Dense Retrieval using Matrix Decomposition [12.899105656025018]
密集検索の時代には、文書のインデックス化と検索は主に、文書を埋め込みに変換するエンコーディングモデルに基づいている。
近年の研究では, 組込みサイズを減らし, 回収効率を向上できる可能性が示唆されている。
そこで本研究では,主成分分析による埋込み寸法の低減のための新しい静的プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T09:09:20Z) - On the Dimensionality of Sentence Embeddings [56.86742006079451]
文埋め込みの最適次元は通常、デフォルト値よりも小さいことを示す。
文表現学習モデルの2段階学習法を提案し、エンコーダとプーラを個別に最適化することにより、全体的な性能損失を軽減する。
論文 参考訳(メタデータ) (2023-10-23T18:51:00Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - The Curse of Dense Low-Dimensional Information Retrieval for Large Index
Sizes [61.78092651347371]
指数の大きさを増加させるため,密度表現の性能はスパース表現よりも速く低下することを示す。
極端な場合、これは特定のインデックスサイズの疎表現が密な表現を上回るような先端点につながることもある。
論文 参考訳(メタデータ) (2020-12-28T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。