論文の概要: Frequency-based Distortions in Contextualized Word Embeddings
- arxiv url: http://arxiv.org/abs/2104.08465v1
- Date: Sat, 17 Apr 2021 06:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:14:57.748566
- Title: Frequency-based Distortions in Contextualized Word Embeddings
- Title(参考訳): 文脈化単語埋め込みにおける周波数に基づく歪み
- Authors: Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky
- Abstract要約: 本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
- 参考スコア(独自算出の注目度): 29.88883761339757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How does word frequency in pre-training data affect the behavior of
similarity metrics in contextualized BERT embeddings? Are there systematic ways
in which some word relationships are exaggerated or understated? In this work,
we explore the geometric characteristics of contextualized word embeddings with
two novel tools: (1) an identity probe that predicts the identity of a word
using its embedding; (2) the minimal bounding sphere for a word's
contextualized representations. Our results reveal that words of high and low
frequency differ significantly with respect to their representational geometry.
Such differences introduce distortions: when compared to human judgments, point
estimates of embedding similarity (e.g., cosine similarity) can over- or
under-estimate the semantic similarity of two words, depending on the frequency
of those words in the training data. This has downstream societal implications:
BERT-Base has more trouble differentiating between South American and African
countries than North American and European ones. We find that these distortions
persist when using BERT-Multilingual, suggesting that they cannot be easily
fixed with additional data, which in turn introduces new distortions.
- Abstract(参考訳): 事前学習データにおける単語頻度は、コンテキスト化BERT埋め込みにおける類似度指標の挙動にどのように影響するか?
ある単語の関係が誇張されたり、過小評価されたりする体系的な方法はありますか?
本研究では,(1)単語の埋め込みによる同一性を予測する識別プローブ,(2)単語の文脈化表現に対する最小境界球面,という2つの新しいツールを用いて,文脈化単語埋め込みの幾何学的特徴を探索する。
その結果, 高頻度・低頻度の単語は表現幾何学的に大きく異なることがわかった。
人間の判断と比較すると、埋め込み類似性(例えばコサイン類似性)のポイント推定は、トレーニングデータ内の単語の頻度に応じて、2つの単語の意味的類似性を過小評価することができる。
BERT-Baseは北米やヨーロッパよりも南アメリカとアフリカ諸国の差別化が難しい。
これらの歪みは, bert-multilingual を用いた場合も持続することが明らかとなり, 追加データでは容易に修正できないことが示唆された。
関連論文リスト
- Solving Cosine Similarity Underestimation between High Frequency Words
by L2 Norm Discounting [19.12036493733793]
本稿では,単語間のコサイン類似度を測定する際に,その単語の周波数に埋め込まれた文脈化された単語のL2ノルムをコーパスに分解する手法を提案する。
文脈的単語類似度データセットの実験結果から,提案手法は類似度推定の難しさを正確に解決することを示した。
論文 参考訳(メタデータ) (2023-05-17T23:41:30Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics [2.1374208474242815]
いくつかの静的単語埋め込みにおける周波数と意味的類似性の関係を体系的に研究する。
Skip-gram、GloVe、FastTextの埋め込みは、他の周波数の組み合わせよりも高周波ワード間の意味的類似性が高い傾向にある。
論文 参考訳(メタデータ) (2022-11-15T15:11:06Z) - Subject Verb Agreement Error Patterns in Meaningless Sentences: Humans
vs. BERT [64.40111510974957]
英語における主語数合意に意味が干渉するかどうかを検証する。
意味的によく形づくられた、意味のないアイテムを生成します。
BERTと人間はどちらも、セマンティックな操作に敏感である。
論文 参考訳(メタデータ) (2022-09-21T17:57:23Z) - Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings [11.475144702935568]
各単語感覚の文脈的埋め込みが、典型的な事前学習モデルにおける文脈によってどの程度異なるかを定量化する。
単語表現は位置バイアスを受けており、異なる文脈における最初の単語はより類似する傾向にある。
論文 参考訳(メタデータ) (2022-08-20T12:27:25Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Does BERT Understand Sentiment? Leveraging Comparisons Between
Contextual and Non-Contextual Embeddings to Improve Aspect-Based Sentiment
Models [0.0]
BERTからの文脈埋め込みと一般的な単語埋め込みとの比較をトレーニングすることで感情を推測できることが示される。
また、BERTと汎用単語埋め込みを比較して構築したモデルの重みのサブセットを微調整すると、アスペクトベース感性分類データセットにおける極性検出のための技術結果が得られます。
論文 参考訳(メタデータ) (2020-11-23T19:12:31Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。