論文の概要: Using Artificial French Data to Understand the Emergence of Gender Bias
in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2310.15852v1
- Date: Tue, 24 Oct 2023 14:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:29:48.445498
- Title: Using Artificial French Data to Understand the Emergence of Gender Bias
in Transformer Language Models
- Title(参考訳): 人工フランス語データを用いたトランスフォーマー言語モデルにおけるジェンダーバイアス発生の理解
- Authors: Lina Conti and Guillaume Wisniewski
- Abstract要約: この研究は、神経モデルがジェンダーなどの単語の言語的性質や、その使用法を規定する規則をいかに発見するかという、あまり研究されていないトピックを探求するための最初のステップである。
本稿では,フランス語をベースとしたPCFGが生成した人工コーパスを用いて,トレーニングデータ中の性別分布を正確に制御し,モデルが正しく性別情報をキャプチャした条件を決定することを提案する。
- 参考スコア(独自算出の注目度): 5.22145960878624
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous studies have demonstrated the ability of neural language models to
learn various linguistic properties without direct supervision. This work takes
an initial step towards exploring the less researched topic of how neural
models discover linguistic properties of words, such as gender, as well as the
rules governing their usage. We propose to use an artificial corpus generated
by a PCFG based on French to precisely control the gender distribution in the
training data and determine under which conditions a model correctly captures
gender information or, on the contrary, appears gender-biased.
- Abstract(参考訳): 多くの研究が、言語モデルが直接の監督なしに様々な言語特性を学ぶ能力を示している。
この研究は、神経モデルがジェンダーなどの単語の言語的性質や、その使用法を規定する規則をいかに発見するかという、あまり研究されていないトピックを探求するための最初のステップである。
本稿では,フランス語をベースとしたPCFGが生成した人工コーパスを用いて,トレーニングデータ中の性別分布を正確に制御し,モデルが正しく性別情報をキャプチャした条件を決定することを提案する。
関連論文リスト
- Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Investigating grammatical abstraction in language models using few-shot learning of novel noun gender [0.0]
我々は,LSTMとデコーダのみのトランスフォーマーが,フランス語の文法的ジェンダーを人間のように抽象化できるかどうかを評価するために名詞学習実験を行った。
両言語モデルが一対二の学習例から新約名詞のジェンダーを効果的に一般化し,合意文脈にまたがって学習したジェンダーを適用した。
モデルの一般化行動は、それらが人間のように文法的な性別を抽象的なカテゴリーとして表現していることを示しているが、詳細を探求するにはさらなる作業が必要である。
論文 参考訳(メタデータ) (2024-03-15T14:25:59Z) - Transparency at the Source: Evaluating and Interpreting Language Models
With Access to the True Distribution [4.01799362940916]
人工的な言語のようなデータを用いて、ニューラルネットワークモデルのトレーニング、評価、解釈を行う。
データは、巨大な自然言語コーパスから派生した巨大な確率文法を用いて生成される。
基礎となる真の情報源にアクセスすることで、異なる単語のクラス間の動的学習における顕著な違いと結果が示される。
論文 参考訳(メタデータ) (2023-10-23T12:03:01Z) - Exploiting Biased Models to De-bias Text: A Gender-Fair Rewriting Model [32.21372089380992]
我々は、精巧な手作りのルールを必要とせずに、ドイツ語の書き直しモデルを訓練する。
このモデルのアウトプットは、人間の評価研究で示されているように、ジェンダーフェアネスを増加させた。
論文 参考訳(メタデータ) (2023-05-18T17:35:28Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。