論文の概要: Redundancy, Isotropy, and Intrinsic Dimensionality of Prompt-based Text Embeddings
- arxiv url: http://arxiv.org/abs/2506.01435v1
- Date: Mon, 02 Jun 2025 08:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.733626
- Title: Redundancy, Isotropy, and Intrinsic Dimensionality of Prompt-based Text Embeddings
- Title(参考訳): Prompt-based Text Embeddingsの冗長性, 等方性, 内在的次元性
- Authors: Hayato Tsukagoshi, Ryohei Sasano,
- Abstract要約: Promptベースのテキスト埋め込みモデルは、カスタマイズされたプロンプトを受け取るとタスク固有の埋め込みを生成する。
実験の結果, 埋め込みの次元の25%しか保持しない, 単純な次元削減であっても, 性能はわずかに低下することがわかった。
分類とクラスタリングでは、埋め込みを元の寸法の0.5%未満に減らしても、性能劣化は非常に小さい。
- 参考スコア(独自算出の注目度): 9.879314903531286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based text embedding models, which generate task-specific embeddings upon receiving tailored prompts, have recently demonstrated remarkable performance. However, their resulting embeddings often have thousands of dimensions, leading to high storage costs and increased computational costs of embedding-based operations. In this paper, we investigate how post-hoc dimensionality reduction applied to the embeddings affects the performance of various tasks that leverage these embeddings, specifically classification, clustering, retrieval, and semantic textual similarity (STS) tasks. Our experiments show that even a naive dimensionality reduction, which keeps only the first 25% of the dimensions of the embeddings, results in a very slight performance degradation, indicating that these embeddings are highly redundant. Notably, for classification and clustering, even when embeddings are reduced to less than 0.5% of the original dimensionality the performance degradation is very small. To quantitatively analyze this redundancy, we perform an analysis based on the intrinsic dimensionality and isotropy of the embeddings. Our analysis reveals that embeddings for classification and clustering, which are considered to have very high dimensional redundancy, exhibit lower intrinsic dimensionality and less isotropy compared with those for retrieval and STS.
- Abstract(参考訳): 近年,タスク固有の埋め込みを生成するプロンプトベースのテキスト埋め込みモデルが注目されている。
しかし、それらの埋め込みは数千の次元を持ち、高いストレージコストと埋め込みベースの演算の計算コストが増大する。
本稿では, 組込み作業, 特に分類, クラスタリング, 検索, 意味的テクスチャ類似性(STS)といった, 組込み作業に適用されるポストホック次元の低減が, 各種タスクの性能に与える影響について検討する。
実験の結果, 埋め込みの次元の約25%しか保持しない素質的な次元削減であっても, 性能はわずかに低下し, 組込みが極めて冗長であることが示唆された。
特に、分類やクラスタリングでは、埋め込みを元の寸法の0.5%未満に減らしても、性能劣化は非常に小さい。
この冗長性を定量的に解析するために,埋め込みの内在次元と等方性に基づく解析を行う。
解析の結果,非常に高次元の冗長性を有すると考えられる分類やクラスタリングの埋め込みは,検索やSTSに比べて内在次元が低く,等方性も低いことがわかった。
関連論文リスト
- Static Pruning in Dense Retrieval using Matrix Decomposition [12.899105656025018]
密集検索の時代には、文書のインデックス化と検索は主に、文書を埋め込みに変換するエンコーディングモデルに基づいている。
近年の研究では, 組込みサイズを減らし, 回収効率を向上できる可能性が示唆されている。
そこで本研究では,主成分分析による埋込み寸法の低減のための新しい静的プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T09:09:20Z) - Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。
埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。
ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T13:44:20Z) - Embedding Compression for Efficient Re-Identification [0.0]
ReIDアルゴリズムは、オブジェクトの新しい観測結果を以前に記録されたインスタンスにマッピングすることを目的としている。
我々は3つの異なる次元還元法とともに量子化学習をベンチマークする。
ReIDの埋め込みは96倍まで圧縮でき、性能は最小限に抑えられる。
論文 参考訳(メタデータ) (2024-05-23T15:57:11Z) - Evaluating Unsupervised Dimensionality Reduction Methods for Pretrained Sentence Embeddings [28.35953315232521]
プレトレーニング言語モデル(PLM)による文の埋め込みは、NLPコミュニティから広く注目を集めている。
PLMによって生成された文の埋め込みの高次元性は、メモリや計算制約のあるデバイスで大量の文を表現する場合に問題となる。
本研究では, PLM による文埋め込みの次元化を図るために, 教師なしの次元化手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-20T21:58:32Z) - On the Dimensionality of Sentence Embeddings [56.86742006079451]
文埋め込みの最適次元は通常、デフォルト値よりも小さいことを示す。
文表現学習モデルの2段階学習法を提案し、エンコーダとプーラを個別に最適化することにより、全体的な性能損失を軽減する。
論文 参考訳(メタデータ) (2023-10-23T18:51:00Z) - An evaluation framework for dimensionality reduction through sectional
curvature [59.40521061783166]
本研究は,非教師付き次元減少性能指標を初めて導入することを目的としている。
その実現可能性をテストするために、この測定基準は最もよく使われる次元削減アルゴリズムの性能を評価するために用いられている。
新しいパラメータ化問題インスタンスジェネレータが関数ジェネレータの形式で構築されている。
論文 参考訳(メタデータ) (2023-03-17T11:59:33Z) - DimenFix: A novel meta-dimensionality reduction method for feature
preservation [64.0476282000118]
そこで我々は, グラデーション・ディフレッシブなプロセスを含む任意の基本次元還元法で操作できる新しいメタメソド, DimenFixを提案する。
DimenFixは、ディメンタリティの削減と見なされるさまざまな機能の重要性をユーザが定義できるようにすることで、与えられたデータセットを視覚化し、理解する新たな可能性を生み出します。
論文 参考訳(メタデータ) (2022-11-30T05:35:22Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Dimensionality Reduction for Sentiment Classification: Evolving for the
Most Prominent and Separable Features [4.156782836736784]
感情分類において、膨大なテキストデータ、その膨大な次元、および固有のノイズは、機械学習分類器が高レベルで複雑な抽象化を抽出することが極めて困難である。
既存の次元削減技術では、コンポーネントの数を手動で設定する必要があるため、最も顕著な特徴が失われる。
我々は,2次元化技術であるSentiment Term Presence Count(SentiTPC)とSentiment Term Presence Ratio(SentiTPR)からなる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。