論文の概要: Testing the assumptions about the geometry of sentence embedding spaces: the cosine measure need not apply
- arxiv url: http://arxiv.org/abs/2509.01606v1
- Date: Mon, 01 Sep 2025 16:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.7808
- Title: Testing the assumptions about the geometry of sentence embedding spaces: the cosine measure need not apply
- Title(参考訳): 文埋め込み空間の幾何学に関する仮定の検証 : 余弦測度を適用する必要はない
- Authors: Vivi Nastase, Paola Merlo,
- Abstract要約: Transformerモデルは入力テキストのエンコードとデコードを学び、副作用としてコンテキストトークンの埋め込みを生成する。
言語から埋め込み空間への写像は、同様の概念を表現した単語を、空間の近くにある点に写す。
実際には、この空間の近点に対応する単語は類似または関連しており、さらにその単語は関連しない。
- 参考スコア(独自算出の注目度): 1.1544794958059696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models learn to encode and decode an input text, and produce contextual token embeddings as a side-effect. The mapping from language into the embedding space maps words expressing similar concepts onto points that are close in the space. In practice, the reverse implication is also assumed: words corresponding to close points in this space are similar or related, those that are further are not. Does closeness in the embedding space extend to shared properties for sentence embeddings? We present an investigation of sentence embeddings and show that the geometry of their embedding space is not predictive of their relative performances on a variety of tasks. We compute sentence embeddings in three ways: as averaged token embeddings, as the embedding of the special [CLS] token, and as the embedding of a random token from the sentence. We explore whether there is a correlation between the distance between sentence embedding variations and their performance on linguistic tasks, and whether despite their distances, they do encode the same information in the same manner. The results show that the cosine similarity -- which treats dimensions shallowly -- captures (shallow) commonalities or differences between sentence embeddings, which are not predictive of their performance on specific tasks. Linguistic information is rather encoded in weighted combinations of different dimensions, which are not reflected in the geometry of the sentence embedding space.
- Abstract(参考訳): Transformerモデルは入力テキストのエンコードとデコードを学び、副作用としてコンテキストトークンの埋め込みを生成する。
言語から埋め込み空間への写像は、同様の概念を表現した単語を、空間の近くにある点に写す。
実際には、この空間の近点に対応する単語は類似または関連しており、さらにその単語は関連しない。
埋め込み空間の密接度は、文埋め込みのための共有プロパティに拡張されるか?
本稿では, 文の埋め込みに関する調査を行い, 組込み空間の幾何学が, 様々なタスクにおける相対的性能を予測できないことを示す。
文の埋め込みは,平均的なトークン埋め込み,特別な[CLS]トークンの埋め込み,そして文からのランダムトークンの埋め込みの3つの方法で計算する。
文の組込み変化と言語課題における性能の相関関係について検討し,その距離に関わらず,同じ情報を同じ方法で符号化するかどうかを考察する。
その結果、コサインの類似性 -- 次元を浅く扱う -- は、特定のタスクでのパフォーマンスを予測できない(浅く)共通性や文の埋め込みの違いを捉えていることがわかった。
言語情報はかなり異なる次元の重み付けされた組み合わせに符号化されており、これは文埋め込み空間の幾何学に反映されない。
関連論文リスト
- Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Bridging Continuous and Discrete Spaces: Interpretable Sentence
Representation Learning via Compositional Operations [80.45474362071236]
文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。
文埋め込み学習のためのエンドツーエンドフレームワークであるInterSentを提案する。
論文 参考訳(メタデータ) (2023-05-24T00:44:49Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Towards Robust and Semantically Organised Latent Representations for
Unsupervised Text Style Transfer [6.467090475885798]
この摂動モデルを完成させるEPAAE(Perturbed Adrial AutoEncoders)を導入する。
これは、(a)スタイル的に類似した文をまとめるより優れた組織化された潜在空間を生み出すことを実証的に示す。
また、テキストスタイルの転送タスクをNLIデータセットに拡張し、これらのより複雑なスタイル定義がEPAAEによって最もよく学習されていることを示す。
論文 参考訳(メタデータ) (2022-05-04T20:04:24Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z) - Discovering linguistic (ir)regularities in word embeddings through
max-margin separating hyperplanes [0.0]
単語埋め込み空間において,関係する単語の相対的な位置を学習するための新しい手法を示す。
私たちのモデルであるSVMCosは、単語埋め込みのトレーニングにおいて、さまざまな実験的な選択に対して堅牢です。
論文 参考訳(メタデータ) (2020-03-07T20:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。