論文の概要: Systematic Offensive Stereotyping (SOS) Bias in Language Models
- arxiv url: http://arxiv.org/abs/2308.10684v2
- Date: Fri, 26 Apr 2024 08:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 18:17:43.097177
- Title: Systematic Offensive Stereotyping (SOS) Bias in Language Models
- Title(参考訳): 言語モデルにおけるSOSバイアス
- Authors: Fatma Elsafoury,
- Abstract要約: 言語モデル(LM)におけるSOSバイアスを測定するための新しい指標を提案する。
次に,SOSバイアスを検証し,その除去の有効性について検討する。
最後に, LMのSOSバイアスがヘイトスピーチ検出に及ぼす影響について検討した。
- 参考スコア(独自算出の注目度): 6.2548734896918505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new metric to measure the SOS bias in language models (LMs). Then, we validate the SOS bias and investigate the effectiveness of removing it. Finally, we investigate the impact of the SOS bias in LMs on their performance and fairness on hate speech detection. Our results suggest that all the inspected LMs are SOS biased. And that the SOS bias is reflective of the online hate experienced by marginalized identities. The results indicate that using debias methods from the literature worsens the SOS bias in LMs for some sensitive attributes and improves it for others. Finally, Our results suggest that the SOS bias in the inspected LMs has an impact on their fairness of hate speech detection. However, there is no strong evidence that the SOS bias has an impact on the performance of hate speech detection.
- Abstract(参考訳): 本稿では,言語モデル(LM)におけるSOSバイアスを測定するための新しい指標を提案する。
次に,SOSバイアスを検証し,その除去の有効性について検討する。
最後に, LMのSOSバイアスがヘイトスピーチ検出に及ぼす影響について検討した。
以上の結果から,検査対象のLMはSOSに偏りがあることが示唆された。
そして、SOSの偏見は、差別化されたアイデンティティによって経験されるオンライン憎悪を反映している。
その結果, 文献からの脱バイアス法を用いることで, LMのSOSバイアスが微妙な属性で悪化し, 他の属性で改善されることが示唆された。
最後に,検査したLMのSOSバイアスがヘイトスピーチ検出の公平性に与える影響を示唆した。
しかし、SOSバイアスがヘイトスピーチ検出の性能に影響を及ぼすという強い証拠はない。
関連論文リスト
- Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation [18.150899267807965]
大規模言語モデル(LLM)における非学習に基づくデバイアス化のアプローチについて検討する。
テキストの有害部分を解き放つマスク言語モデリングアンラーニング手法を提案する。
実験の結果,言語モデリング能力を維持しながらバイアスを減少させる手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-24T02:37:42Z) - Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception [13.592532358127293]
大規模言語モデル(LLM)におけるバイアスの存在と性質について検討する。
LLMが特に政治的バイアス予測やテキスト継続タスクにおいてバイアスを示すかどうかを調査する。
我々は,素早い工学とモデル微調整を含む脱バイアス戦略を提案する。
論文 参考訳(メタデータ) (2024-03-22T00:59:48Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Measuring Implicit Bias in Explicitly Unbiased Large Language Models [14.279977138893846]
大規模言語モデル(LLM)は明示的な社会的バイアステストに合格するが、それでも暗黙のバイアスを課す。
我々は、暗黙のバイアスを明らかにするプロンプトベースの方法であるLSM Implicit Biasと、意思決定タスクにおける微妙な差別を検出する戦略であるLSM Decision Biasの2つの新しいバイアス対策を導入する。
これらの指標を用いて,4つの社会カテゴリーにまたがる8つの価値整合モデルにおいて,社会における傾向を反映する広汎なステレオタイプバイアスが発見された。
論文 参考訳(メタデータ) (2024-02-06T15:59:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。