論文の概要: Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics
- arxiv url: http://arxiv.org/abs/2211.08203v2
- Date: Thu, 19 Oct 2023 19:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 14:18:43.207485
- Title: Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics
- Title(参考訳): 単語埋め込みの周波数歪みとそのバイアスメトリクスへの影響の検討
- Authors: Francisco Valentini, Juan Cruz Sosa, Diego Fernandez Slezak, Edgar
Altszyler
- Abstract要約: いくつかの静的単語埋め込みにおける周波数と意味的類似性の関係を体系的に研究する。
Skip-gram、GloVe、FastTextの埋め込みは、他の周波数の組み合わせよりも高周波ワード間の意味的類似性が高い傾向にある。
- 参考スコア(独自算出の注目度): 2.1374208474242815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that static word embeddings can encode word
frequency information. However, little has been studied about this phenomenon
and its effects on downstream tasks. In the present work, we systematically
study the association between frequency and semantic similarity in several
static word embeddings. We find that Skip-gram, GloVe and FastText embeddings
tend to produce higher semantic similarity between high-frequency words than
between other frequency combinations. We show that the association between
frequency and similarity also appears when words are randomly shuffled. This
proves that the patterns found are not due to real semantic associations
present in the texts, but are an artifact produced by the word embeddings.
Finally, we provide an example of how word frequency can strongly impact the
measurement of gender bias with embedding-based metrics. In particular, we
carry out a controlled experiment that shows that biases can even change sign
or reverse their order by manipulating word frequencies.
- Abstract(参考訳): 近年の研究では、静的な単語埋め込みが単語の頻度情報をエンコードできることが示されている。
しかし、この現象とその下流タスクへの影響についてはほとんど研究されていない。
本研究では,いくつかの静的単語埋め込みにおける頻度と意味的類似性の関係を体系的に研究する。
スキップグラムやグローブ、ファストテキスト埋め込みは、他の周波数の組み合わせよりも高周波の単語間の意味的類似性が高い傾向がある。
単語がランダムにシャッフルされると、周波数と類似度の関係も現れる。
これは、見つかったパターンがテキストに存在する実際の意味関係によるものではなく、単語埋め込みによって生成された人工物であることを示している。
最後に、単語の頻度が、埋め込みベースのメトリクスによる性別バイアスの測定にどのように影響するかを示す。
特に, 単語の周波数を操作することで, バイアスが符号を変えたり, 順序を変えたりできることを示す制御実験を行った。
関連論文リスト
- Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - The Undesirable Dependence on Frequency of Gender Bias Metrics Based on
Word Embeddings [0.0]
単語埋め込みに基づく偏見定量化手法を用いて,男女差の測定における周波数の影響について検討した。
その結果,Skip-gramとGloVeは高頻度語で男性バイアスを検出する傾向があり,GloVeは低頻度語で女性バイアスを返す傾向にあることがわかった。
このことは、未シャッフルコーパスで観測される周波数に基づく効果は、単語の関連性からではなく、計量の性質に由来することを証明している。
論文 参考訳(メタデータ) (2023-01-02T18:27:10Z) - Boosting word frequencies in authorship attribution [0.0]
本稿では,著者帰属や類似のテクスチャタスクに対して,比較的簡単な単語頻度計算手法を提案する。
関連する単語の概念は同義語を含み、通常、ある意味的にある単語に類似したいくつかの他の単語を含む。
提案手法は古典的最頻単語のアプローチを大幅に上回る。
論文 参考訳(メタデータ) (2022-11-02T17:11:35Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。