論文の概要: Harnessing the Universal Geometry of Embeddings
- arxiv url: http://arxiv.org/abs/2505.12540v2
- Date: Tue, 20 May 2025 15:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.431901
- Title: Harnessing the Universal Geometry of Embeddings
- Title(参考訳): 埋め込みの普遍幾何学の調和
- Authors: Rishi Jha, Collin Zhang, Vitaly Shmatikov, John X. Morris,
- Abstract要約: 本稿では,テキスト埋め込みを1つのベクトル空間から別のベクトル空間に変換する最初の手法を提案する。
我々の翻訳は、異なるアーキテクチャ、パラメータ数、トレーニングデータセットを持つモデルペア間で高いコサイン類似性を実現する。
- 参考スコア(独自算出の注目度): 8.566825612032359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first method for translating text embeddings from one vector space to another without any paired data, encoders, or predefined sets of matches. Our unsupervised approach translates any embedding to and from a universal latent representation (i.e., a universal semantic structure conjectured by the Platonic Representation Hypothesis). Our translations achieve high cosine similarity across model pairs with different architectures, parameter counts, and training datasets. The ability to translate unknown embeddings into a different space while preserving their geometry has serious implications for the security of vector databases. An adversary with access only to embedding vectors can extract sensitive information about the underlying documents, sufficient for classification and attribute inference.
- Abstract(参考訳): 本稿では,テキスト埋め込みを1つのベクトル空間から別のベクトル空間に変換する最初の手法を提案する。
我々の教師なしのアプローチは、任意の埋め込みを普遍的な潜在表現(すなわち、プラトン表現仮説によって予想される普遍的な意味構造)に翻訳する。
我々の翻訳は、異なるアーキテクチャ、パラメータ数、トレーニングデータセットを持つモデルペア間で高いコサイン類似性を実現する。
未知の埋め込みを異なる空間に翻訳し、幾何学を保存する能力は、ベクトルデータベースのセキュリティに深刻な影響を与える。
埋め込みベクトルのみにアクセスする敵は、分類や属性推論に十分な基礎となる文書に関する機密情報を抽出することができる。
関連論文リスト
- Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Interpreting Embedding Spaces by Conceptualization [2.620130580437745]
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
論文 参考訳(メタデータ) (2022-08-22T15:32:17Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - SEEC: Semantic Vector Federation across Edge Computing Environments [0.0]
最先端の埋め込みアプローチは、すべてのデータが単一のサイトで利用可能であると仮定する。
多くのビジネス環境では、データは複数のエッジロケーションに分散しており、集約することはできない。
本稿では,emphSEECと呼ばれる新しい非教師付きアルゴリズムを提案し,様々な分散環境にセマンティックベクトル埋め込みを適用して学習する。
論文 参考訳(メタデータ) (2020-08-30T23:51:41Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。