論文の概要: Hubness Reduction Improves Sentence-BERT Semantic Spaces
- arxiv url: http://arxiv.org/abs/2311.18364v1
- Date: Thu, 30 Nov 2023 09:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:17:37.448243
- Title: Hubness Reduction Improves Sentence-BERT Semantic Spaces
- Title(参考訳): 浮き沈み低減による文節空間の改善
- Authors: Beatrix M. G. Nielsen and Lars Kai Hansen
- Abstract要約: 本稿では,Sentence-BERTを用いた埋め込みから生じる意味空間の構造について検討する。
これらの表現は、高次元において、ハブネスと呼ばれるよく知られた問題に悩まされている。
ハブ性が高い場合には、ハブ性低減法を用いてエラー率とハブ性を低減することができる。
- 参考スコア(独自算出の注目度): 1.8420149175440346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic representations of text, i.e. representations of natural language
which capture meaning by geometry, are essential for areas such as information
retrieval and document grouping. High-dimensional trained dense vectors have
received much attention in recent years as such representations. We investigate
the structure of semantic spaces that arise from embeddings made with
Sentence-BERT and find that the representations suffer from a well-known
problem in high dimensions called hubness. Hubness results in asymmetric
neighborhood relations, such that some texts (the hubs) are neighbours of many
other texts while most texts (so-called anti-hubs), are neighbours of few or no
other texts. We quantify the semantic quality of the embeddings using hubness
scores and error rate of a neighbourhood based classifier. We find that when
hubness is high, we can reduce error rate and hubness using hubness reduction
methods. We identify a combination of two methods as resulting in the best
reduction. For example, on one of the tested pretrained models, this combined
method can reduce hubness by about 75% and error rate by about 9%. Thus, we
argue that mitigating hubness in the embedding space provides better semantic
representations of text.
- Abstract(参考訳): テキストのセマンティック表現、すなわち、幾何学的に意味を捉える自然言語の表現は、情報検索や文書のグルーピングといった分野において不可欠である。
近年、高次元訓練された密度ベクトルはそのような表現として多くの注目を集めている。
本研究では,Sentence-BERTによる埋め込みから生じる意味空間の構造を調査し,その表現が高次元においてよく知られた問題に悩まされていることを明らかにする。
ハブネスは、いくつかのテキスト(ハブ)が他の多くのテキストの近傍であり、ほとんどのテキスト(いわゆるアンチハブ)が他のテキストの近傍であるような非対称な近隣関係をもたらす。
本研究は, 地域別分類器のハブネススコアと誤差率を用いて, 組込みのセマンティクス品質を定量化する。
ハブ性が高い場合には、ハブ性低減法を用いてエラー率とハブ性を低減することができる。
2つの方法の組み合わせを最善の還元結果として特定する。
例えば、事前訓練されたモデルの1つで、この組み合わせにより、ハブネスを約75%、エラー率を約9%削減できる。
したがって、埋め込み空間におけるハブ性を軽減することは、テキストのセマンティック表現をより良くする。
関連論文リスト
- Contrastive Multi-graph Learning with Neighbor Hierarchical Sifting for Semi-supervised Text Classification [16.75801747622402]
半教師付きテキスト分類のための隣接階層シフティングを用いたコントラッシブ・マルチグラフ学習法を提案する。
具体的には、コア機能を利用してマルチリレーショナルテキストグラフを作成し、テキスト間のセマンティックな接続を強化する。
ThuCNews、SogouNews、20のニュースグループ、およびOhsumedデータセットに関する我々の実験は95.86%、97.52%、87.43%、70.65%を達成し、半教師付きテキスト分類の競争結果を示している。
論文 参考訳(メタデータ) (2024-11-25T08:35:55Z) - SGOR: Outlier Removal by Leveraging Semantic and Geometric Information for Robust Point Cloud Registration [0.8192907805418583]
現在の登録方法は、ポイント・ツー・ポイントやインスタンスのセマンティック対応生成にのみセマンティクスを使用する。
本稿では,地域投票に基づくセカンダリグラウンドセグメンテーションとゆるやかなセマンティック一貫性を提案する。
アウトドアデータセットにおいて,提案手法は優れた性能を示し,登録リコールの22.5ポイント向上を実現した。
論文 参考訳(メタデータ) (2024-07-08T18:07:09Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Hubs and Hyperspheres: Reducing Hubness and Improving Transductive
Few-shot Learning with Hyperspherical Embeddings [14.192549988460126]
いくつかの点(ハーブ)は、他の点の複数の最も近い近傍リストで頻繁に発生する。
ハブネスは、あるクラスからのハブが他のクラスからの最も近いポイントの隣人の中にしばしば現れるとき、距離ベースの分類に悪影響を及ぼす。
我々は超球面上に表現を埋め込むための2つの新しいアプローチを提案し、均一性と局所類似性保存とのトレードオフを最適化することを証明した。
論文 参考訳(メタデータ) (2023-03-16T14:32:22Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Logic Constrained Pointer Networks for Interpretable Textual Similarity [11.142649867439406]
本稿では, セシネルゲーティング機能を備えた新しいポインターネットワークモデルを導入し, 構成チャンクを整列させる。
両文の相違を等しく補償し、アライメントが双方向であることを保証するために、損失関数によるこのベースモデルを改善する。
このモデルは、チャンクアライメントタスクのためのベンチマークSemEvalデータセットにおいて、97.73と96.32のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-07-15T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。