論文の概要: Blacks is to Anger as Whites is to Joy? Understanding Latent Affective
Bias in Large Pre-trained Neural Language Models
- arxiv url: http://arxiv.org/abs/2301.09003v1
- Date: Sat, 21 Jan 2023 20:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:22:28.162052
- Title: Blacks is to Anger as Whites is to Joy? Understanding Latent Affective
Bias in Large Pre-trained Neural Language Models
- Title(参考訳): 黒人はアンガーに、白人はジョイに?
大規模事前学習ニューラルランゲージモデルにおける潜在感情バイアスの理解
- Authors: Anoop Kadan, Deepak P., Sahely Bhadra, Manjary P. Gangan, Lajish V. L
- Abstract要約: 感情バイアス(Affective Bias)とは、特定の性別、人種、宗教に対する感情の関連性である。
PLMに基づく感情検出システムに統計的に有意な感情バイアスが存在することを示す。
- 参考スコア(独自算出の注目度): 3.5278693565908137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Groundbreaking inventions and highly significant performance improvements in
deep learning based Natural Language Processing are witnessed through the
development of transformer based large Pre-trained Language Models (PLMs). The
wide availability of unlabeled data within human generated data deluge along
with self-supervised learning strategy helps to accelerate the success of large
PLMs in language generation, language understanding, etc. But at the same time,
latent historical bias/unfairness in human minds towards a particular gender,
race, etc., encoded unintentionally/intentionally into the corpora harms and
questions the utility and efficacy of large PLMs in many real-world
applications, particularly for the protected groups. In this paper, we present
an extensive investigation towards understanding the existence of "Affective
Bias" in large PLMs to unveil any biased association of emotions such as anger,
fear, joy, etc., towards a particular gender, race or religion with respect to
the downstream task of textual emotion detection. We conduct our exploration of
affective bias from the very initial stage of corpus level affective bias
analysis by searching for imbalanced distribution of affective words within a
domain, in large scale corpora that are used to pre-train and fine-tune PLMs.
Later, to quantify affective bias in model predictions, we perform an extensive
set of class-based and intensity-based evaluations using various bias
evaluation corpora. Our results show the existence of statistically significant
affective bias in the PLM based emotion detection systems, indicating biased
association of certain emotions towards a particular gender, race, and
religion.
- Abstract(参考訳): 深層学習に基づく自然言語処理における画期的な発明と顕著な性能向上は、トランスフォーマーベースの大規模事前学習言語モデル(PLM)の開発を通じて観察される。
自動教師付き学習戦略とともに、人間が生成したデータの中でラベルなしのデータが広範囲に利用できるようになることで、言語生成や言語理解などにおける大きなplmの成功が加速される。
しかし同時に、特定の性別、人種等に対する人間の心の潜伏した歴史的偏見や不公平は、コーパスに意図せず意図せずエンコードされ、多くの現実世界のアプリケーション、特に保護されたグループにおいて大きなPLMの有効性と有効性に疑問を投げかける。
本稿では,特定の性別,人種,宗教に対する怒り,恐怖,喜びといった感情の偏りのある関係を,文章的感情検出の下流課題に対して明らかにするために,大きなplmにおける「影響バイアス」の存在を理解するための広範囲な調査を行う。
我々は,コーパスレベルの感情的バイアス分析の初期段階から,事前学習および微調整plmに用いられる大規模コーパスにおいて,感情的単語の不均衡分布を探索し,感情的バイアスの探索を行う。
その後、モデル予測における感情バイアスを定量化するために、様々なバイアス評価コーパスを用いて、クラスベースおよび強度ベースの評価を行う。
以上の結果から, PLMに基づく感情検出システムには統計的に有意な感情バイアスが存在し, 特定の性別, 人種, 宗教に対する感情の偏りが示唆された。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討
以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。
これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、下流タスクにおけるデバイアスとパフォーマンスの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-10-25T05:59:44Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Towards an Enhanced Understanding of Bias in Pre-trained Neural Language
Models: A Survey with Special Emphasis on Affective Bias [2.6304695993930594]
本稿では,大規模な事前学習言語モデルにおけるバイアスの理解,それらの発生ステージの分析,およびこれらのバイアスを定量化し緩和する様々な方法を提案する。
ビジネス,医療,教育などの実世界のシステムにおいて,テキストによる情緒的コンピューティングに基づく下流作業の幅広い適用性を考慮すると,感情(感情)の文脈における偏見(感情)、すなわち感情的バイアス(Affective Bias)の探究に特に重点を置いている。
本稿では,将来の研究を支援する各種バイアス評価コーパスの概要と,事前学習言語モデルにおけるバイアス研究の課題について述べる。
論文 参考訳(メタデータ) (2022-04-21T18:51:19Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Towards Socially Responsible AI: Cognitive Bias-Aware Multi-Objective
Learning [24.522730093209262]
人類社会は、社会的偏見や大量不正につながる認知バイアスに悩まされた長い歴史を持っていた。
偏見を考慮した多目的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-14T17:01:53Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。