論文の概要: Systematic Offensive Stereotyping (SOS) Bias in Language Models
- arxiv url: http://arxiv.org/abs/2308.10684v1
- Date: Mon, 21 Aug 2023 12:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:39:12.831159
- Title: Systematic Offensive Stereotyping (SOS) Bias in Language Models
- Title(参考訳): 言語モデルにおける体系的攻撃的ステレオタイプ(sos)バイアス
- Authors: Fatma Elsafoury
- Abstract要約: 言語モデル(LM)における系統的攻撃的ステレオタイプ(SOS)バイアスについて検討する。
以上の結果から,検査対象のLMはSOSに偏りがあることが示唆された。
その結果, LMのSOSバイアスの除去は, 文献から一般的なデバイアス法を用いて, より悪いSOSバイアススコアをもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 6.2548734896918505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research has shown that language models (LMs) are socially biased. However,
toxicity and offensive stereotyping bias in LMs are understudied. In this
paper, we investigate the systematic offensive stereotype (SOS) bias in LMs. We
propose a method to measure it. Then, we validate the SOS bias and investigate
the effectiveness of debias methods from the literature on removing it.
Finally, we investigate the impact of the SOS bias in LMs on their performance
and their fairness on the task of hate speech detection. Our results suggest
that all the inspected LMs are SOS biased. The results suggest that the SOS
bias in LMs is reflective of the hate experienced online by the inspected
marginalized groups. The results indicate that removing the SOS bias in LMs,
using a popular debias method from the literature, leads to worse SOS bias
scores. Finally, Our results show no strong evidence that the SOS bias in LMs
is impactful on their performance on hate speech detection. On the other hand,
there is evidence that the SOS bias in LMs is impactful on their fairness.
- Abstract(参考訳): 研究によると、言語モデル(LM)は社会的バイアスを受けている。
しかし、LMの毒性と攻撃性ステレオタイピングバイアスは検討されている。
本稿では,LMの系統的攻撃的ステレオタイプ(SOS)バイアスについて検討する。
我々はそれを測定する方法を提案する。
そして,SOSバイアスを検証し,その除去に関する文献からのデビアス法の有効性を検討した。
最後に, LMにおけるSOSバイアスが, ヘイトスピーチ検出の課題に与える影響について検討した。
以上の結果から,全ての検査用LMがSOSバイアスを受けていることが示唆された。
その結果, LMのSOSバイアスは, 検査対象グループによるネット上の憎悪を反映していることがわかった。
その結果, LMのSOSバイアスの除去は, 文献から一般的なデバイアス法を用いて, より悪いSOSバイアススコアをもたらすことが明らかとなった。
最後に,lmsのsosバイアスがヘイトスピーチ検出の性能に影響を与えているという強い証拠は得られなかった。
一方、LMのSOSバイアスがそれらの公平性に影響を与えている証拠がある。
関連論文リスト
- Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception [13.592532358127293]
大規模言語モデル(LLM)におけるバイアスの存在と性質について検討する。
LLMが特に政治的バイアス予測やテキスト継続タスクにおいてバイアスを示すかどうかを調査する。
我々は,素早い工学とモデル微調整を含む脱バイアス戦略を提案する。
論文 参考訳(メタデータ) (2024-03-22T00:59:48Z) - Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models [79.5116305401044]
セルフフィードバックは、特定のタスクにおいて大きな言語モデル(LLM)を改善し、他のタスクを悪化させる。
近年の研究では、自己フィードバックは特定のタスクにおいて大きな言語モデル(LLM)を改善する一方で、他のタスクを悪化させることが示されている。
本稿は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Measuring Implicit Bias in Explicitly Unbiased Large Language Models [15.599849157678461]
心理学に触発されたバイアスの2つの尺度を導入する。
4つの社会的領域(人種、性別、宗教、健康)と21のカテゴリー(武器、罪悪感、科学、キャリアなど)にまたがる6つの大きな言語モデル(LLM)において、広範にヒトのようなステレオタイプバイアスがみられた。
論文 参考訳(メタデータ) (2024-02-06T15:59:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to
Express Uncertainty [58.26600585770745]
誤応答しても,不確かさを表現できないことが判明した。
我々は、人間の実験を行うことで、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、RLHFアライメントで使用される嗜好注釈付きデータセットを調査し、不確実性のあるテキストに対して人間が偏見を持っていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - No Word Embedding Model Is Perfect: Evaluating the Representation
Accuracy for Social Bias in the Media [17.4812995898078]
我々は,米国オンラインニュース記事に存在する社会バイアスの種類を正確に測定するために,どのような埋め込みアルゴリズムが最適かを検討する。
我々は500万の記事を収集し、予想される社会的偏見に関して心理学文献をレビューする。
我々は、ニュース記事のアルゴリズムでトレーニングされたモデルが、期待される社会的バイアスをどう表すかを比較する。
論文 参考訳(メタデータ) (2022-11-07T15:45:52Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。