論文の概要: Systematic Offensive Stereotyping (SOS) Bias in Language Models
- arxiv url: http://arxiv.org/abs/2308.10684v1
- Date: Mon, 21 Aug 2023 12:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:39:12.831159
- Title: Systematic Offensive Stereotyping (SOS) Bias in Language Models
- Title(参考訳): 言語モデルにおける体系的攻撃的ステレオタイプ(sos)バイアス
- Authors: Fatma Elsafoury
- Abstract要約: 言語モデル(LM)における系統的攻撃的ステレオタイプ(SOS)バイアスについて検討する。
以上の結果から,検査対象のLMはSOSに偏りがあることが示唆された。
その結果, LMのSOSバイアスの除去は, 文献から一般的なデバイアス法を用いて, より悪いSOSバイアススコアをもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 6.2548734896918505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research has shown that language models (LMs) are socially biased. However,
toxicity and offensive stereotyping bias in LMs are understudied. In this
paper, we investigate the systematic offensive stereotype (SOS) bias in LMs. We
propose a method to measure it. Then, we validate the SOS bias and investigate
the effectiveness of debias methods from the literature on removing it.
Finally, we investigate the impact of the SOS bias in LMs on their performance
and their fairness on the task of hate speech detection. Our results suggest
that all the inspected LMs are SOS biased. The results suggest that the SOS
bias in LMs is reflective of the hate experienced online by the inspected
marginalized groups. The results indicate that removing the SOS bias in LMs,
using a popular debias method from the literature, leads to worse SOS bias
scores. Finally, Our results show no strong evidence that the SOS bias in LMs
is impactful on their performance on hate speech detection. On the other hand,
there is evidence that the SOS bias in LMs is impactful on their fairness.
- Abstract(参考訳): 研究によると、言語モデル(LM)は社会的バイアスを受けている。
しかし、LMの毒性と攻撃性ステレオタイピングバイアスは検討されている。
本稿では,LMの系統的攻撃的ステレオタイプ(SOS)バイアスについて検討する。
我々はそれを測定する方法を提案する。
そして,SOSバイアスを検証し,その除去に関する文献からのデビアス法の有効性を検討した。
最後に, LMにおけるSOSバイアスが, ヘイトスピーチ検出の課題に与える影響について検討した。
以上の結果から,全ての検査用LMがSOSバイアスを受けていることが示唆された。
その結果, LMのSOSバイアスは, 検査対象グループによるネット上の憎悪を反映していることがわかった。
その結果, LMのSOSバイアスの除去は, 文献から一般的なデバイアス法を用いて, より悪いSOSバイアススコアをもたらすことが明らかとなった。
最後に,lmsのsosバイアスがヘイトスピーチ検出の性能に影響を与えているという強い証拠は得られなかった。
一方、LMのSOSバイアスがそれらの公平性に影響を与えている証拠がある。
関連論文リスト
- Anchoring Bias in Large Language Models: An Experimental Study [5.229564709919574]
GPT-4やGeminiのような大規模言語モデル(LLM)は、非常に高度な人工知能を持っている。
この研究は、初期情報が判断に不均衡に影響を及ぼす認知バイアスであるアンカーリングバイアスを論じる。
論文 参考訳(メタデータ) (2024-12-09T15:45:03Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets [0.6918368994425961]
我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。
私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T14:48:57Z) - Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception [13.592532358127293]
大規模言語モデル(LLM)におけるバイアスの存在と性質について検討する。
LLMが特に政治的バイアス予測やテキスト継続タスクにおいてバイアスを示すかどうかを調査する。
我々は,素早い工学とモデル微調整を含む脱バイアス戦略を提案する。
論文 参考訳(メタデータ) (2024-03-22T00:59:48Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。