論文の概要: Dictionary-based Debiasing of Pre-trained Word Embeddings
- arxiv url: http://arxiv.org/abs/2101.09525v1
- Date: Sat, 23 Jan 2021 15:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 12:01:57.707059
- Title: Dictionary-based Debiasing of Pre-trained Word Embeddings
- Title(参考訳): 辞書による事前学習語埋め込みの劣化
- Authors: Masahiro Kaneko and Danushka Bollegala
- Abstract要約: 予め訓練された単語埋め込みを辞書で解読する手法を提案する。
提案手法では,単語リストの形で事前に定義するバイアスの種類は必要としない。
標準ベンチマークデータセットの実験結果から,前訓練された単語埋め込みにエンコードされた不公平なバイアスを正確に除去できることが示された。
- 参考スコア(独自算出の注目度): 28.378270372391498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings trained on large corpora have shown to encode high levels of
unfair discriminatory gender, racial, religious and ethnic biases.
In contrast, human-written dictionaries describe the meanings of words in a
concise, objective and an unbiased manner.
We propose a method for debiasing pre-trained word embeddings using
dictionaries, without requiring access to the original training resources or
any knowledge regarding the word embedding algorithms used.
Unlike prior work, our proposed method does not require the types of biases
to be pre-defined in the form of word lists, and learns the constraints that
must be satisfied by unbiased word embeddings automatically from dictionary
definitions of the words.
Specifically, we learn an encoder to generate a debiased version of an input
word embedding such that it
(a) retains the semantics of the pre-trained word embeddings,
(b) agrees with the unbiased definition of the word according to the
dictionary, and
(c) remains orthogonal to the vector space spanned by any biased basis
vectors in the pre-trained word embedding space.
Experimental results on standard benchmark datasets show that the proposed
method can accurately remove unfair biases encoded in pre-trained word
embeddings, while preserving useful semantics.
- Abstract(参考訳): 大きなコーパスで訓練された単語埋め込みは、高いレベルの不公平な差別性、人種、宗教的、民族的偏見を符号化している。
対照的に、人間による辞書は、簡潔で客観的で偏見のない方法で単語の意味を記述する。
本稿では,辞書を用いて事前学習した単語埋め込みを,元のトレーニングリソースへのアクセスや使用する単語埋め込みアルゴリズムに関する知識を必要とせずに,嫌悪する手法を提案する。
先行研究とは異なり,提案手法では単語リストの形で事前に定義するバイアスのタイプを必要とせず,単語の辞書定義から単語埋め込みの偏りが自動的に満たさなければならない制約を学習する。
具体的には、(a)事前学習された単語埋め込みのセマンティクスを保持するように、入力単語埋め込みのバイアス付きバージョンを生成するエンコーダを学習し、(b)辞書に従って単語のバイアスなし定義と一致し、(c)事前学習された単語埋め込み空間のバイアス付き基底ベクトルにまたがるベクトル空間に直交する。
標準ベンチマークデータセットにおける実験結果から,提案手法は,事前学習された単語埋め込みで符号化された不公平なバイアスを,有用なセマンティクスを保ちながら正確に除去できることがわかった。
関連論文リスト
- Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。
画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。
オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文 参考訳(メタデータ) (2022-03-30T21:35:53Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Supervised Understanding of Word Embeddings [1.160208922584163]
単語埋め込みにおける線形キーワードレベル分類器の形で教師付きプロジェクションを得た。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
論文 参考訳(メタデータ) (2020-06-23T20:13:42Z) - On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms [0.0]
セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。
まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。
そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
論文 参考訳(メタデータ) (2020-06-17T14:25:36Z) - Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation [94.98656228690233]
本稿では,性別サブスペースの推測と削除に先立って,コーパス正規性に対する単語埋め込みを浄化する手法を提案する。
本手法は,事前学習した単語埋め込みの分布的意味を保ちつつ,性別バイアスを従来の手法よりもはるかに大きい程度に低減する。
論文 参考訳(メタデータ) (2020-05-03T02:33:20Z) - Neutralizing Gender Bias in Word Embedding with Latent Disentanglement
and Counterfactual Generation [25.060917870666803]
適応的な勾配反転層を有するシアム自動エンコーダ構造を導入する。
我々の構造は,単語の意味潜時情報と性別潜時情報を,非結合潜時次元に分離することを可能にする。
論文 参考訳(メタデータ) (2020-04-07T05:16:48Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。