論文の概要: Dictionary-based Debiasing of Pre-trained Word Embeddings
- arxiv url: http://arxiv.org/abs/2101.09525v1
- Date: Sat, 23 Jan 2021 15:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 12:01:57.707059
- Title: Dictionary-based Debiasing of Pre-trained Word Embeddings
- Title(参考訳): 辞書による事前学習語埋め込みの劣化
- Authors: Masahiro Kaneko and Danushka Bollegala
- Abstract要約: 予め訓練された単語埋め込みを辞書で解読する手法を提案する。
提案手法では,単語リストの形で事前に定義するバイアスの種類は必要としない。
標準ベンチマークデータセットの実験結果から,前訓練された単語埋め込みにエンコードされた不公平なバイアスを正確に除去できることが示された。
- 参考スコア(独自算出の注目度): 28.378270372391498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings trained on large corpora have shown to encode high levels of
unfair discriminatory gender, racial, religious and ethnic biases.
In contrast, human-written dictionaries describe the meanings of words in a
concise, objective and an unbiased manner.
We propose a method for debiasing pre-trained word embeddings using
dictionaries, without requiring access to the original training resources or
any knowledge regarding the word embedding algorithms used.
Unlike prior work, our proposed method does not require the types of biases
to be pre-defined in the form of word lists, and learns the constraints that
must be satisfied by unbiased word embeddings automatically from dictionary
definitions of the words.
Specifically, we learn an encoder to generate a debiased version of an input
word embedding such that it
(a) retains the semantics of the pre-trained word embeddings,
(b) agrees with the unbiased definition of the word according to the
dictionary, and
(c) remains orthogonal to the vector space spanned by any biased basis
vectors in the pre-trained word embedding space.
Experimental results on standard benchmark datasets show that the proposed
method can accurately remove unfair biases encoded in pre-trained word
embeddings, while preserving useful semantics.
- Abstract(参考訳): 大きなコーパスで訓練された単語埋め込みは、高いレベルの不公平な差別性、人種、宗教的、民族的偏見を符号化している。
対照的に、人間による辞書は、簡潔で客観的で偏見のない方法で単語の意味を記述する。
本稿では,辞書を用いて事前学習した単語埋め込みを,元のトレーニングリソースへのアクセスや使用する単語埋め込みアルゴリズムに関する知識を必要とせずに,嫌悪する手法を提案する。
先行研究とは異なり,提案手法では単語リストの形で事前に定義するバイアスのタイプを必要とせず,単語の辞書定義から単語埋め込みの偏りが自動的に満たさなければならない制約を学習する。
具体的には、(a)事前学習された単語埋め込みのセマンティクスを保持するように、入力単語埋め込みのバイアス付きバージョンを生成するエンコーダを学習し、(b)辞書に従って単語のバイアスなし定義と一致し、(c)事前学習された単語埋め込み空間のバイアス付き基底ベクトルにまたがるベクトル空間に直交する。
標準ベンチマークデータセットにおける実験結果から,提案手法は,事前学習された単語埋め込みで符号化された不公平なバイアスを,有用なセマンティクスを保ちながら正確に除去できることがわかった。
- 全文 参考訳へのリンク
関連論文リスト
- To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。
画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。
オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文 参考訳(メタデータ) (2022-03-30T21:35:53Z) - Dynamically Refined Regularization for Improving Cross-corpora Hate
Speech Detection [30.462596705180534]
ヘイト音声分類器は、ソースと異なるデータセットで評価した場合、かなりの性能劣化を示す。
これまでの研究は、定義済みの静的辞書から特定の用語を正規化することでこの問題を緩和しようと試みてきた。
本稿では,単語リストを動的に洗練した帰属的手法を用いて,素早い相関を自動同定し,低減する手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T16:58:10Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Lacking the embedding of a word? Look it up into a traditional
dictionary [0.2624902795082451]
従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを生成することを提案する。
DefiNNetとDefBERTは、未知の単語の埋め込みを生成するためのベースラインメソッドと同様に、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-24T06:27:58Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Extending Multi-Sense Word Embedding to Phrases and Sentences for
Unsupervised Semantic Applications [34.71597411512625]
本稿では,テキスト列(句または文)に対して,それぞれのシーケンスをコードブック埋め込みの異なる集合で表現する新しい埋め込み手法を提案する。
提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-29T04:54:28Z) - FairFil: Contrastive Neural Debiasing Method for Pretrained Text
Encoders [68.8687509471322]
本稿では,プリトレーニングされたエンコーダ出力をフェアフィルタネットワークを介してデバイアス表現に変換する,プリトレーニング文エンコーダの最初のニューラルデバイアス手法を提案する。
実世界のデータセットでは、fairfilは学習済みテキストエンコーダのバイアスを効果的に低減し、下流タスクで望ましいパフォーマンスを継続的に示します。
論文 参考訳(メタデータ) (2021-03-11T02:01:14Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。