論文の概要: Persistent Anti-Muslim Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2101.05783v2
- Date: Mon, 18 Jan 2021 17:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 03:51:47.948695
- Title: Persistent Anti-Muslim Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおける持続的反ムスリムバイアス
- Authors: Abubakar Abid, Maheen Farooqi, James Zou
- Abstract要約: 最新の文脈言語モデルであるGPT-3は、永続的なムスリム-暴力バイアスを捕捉する。
我々は, GPT-3 を様々な方法で探索し, 即時完了, 類似推論, 物語生成を行う。
例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
- 参考スコア(独自算出の注目度): 13.984800635696566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been observed that large-scale language models capture undesirable
societal biases, e.g. relating to race and gender; yet religious bias has been
relatively unexplored. We demonstrate that GPT-3, a state-of-the-art contextual
language model, captures persistent Muslim-violence bias. We probe GPT-3 in
various ways, including prompt completion, analogical reasoning, and story
generation, to understand this anti-Muslim bias, demonstrating that it appears
consistently and creatively in different uses of the model and that it is
severe even compared to biases about other religious groups. For instance,
"Muslim" is analogized to "terrorist" in 23% of test cases, while "Jewish" is
mapped to "money" in 5% of test cases. We quantify the positive distraction
needed to overcome this bias with adversarial text prompts, and find that use
of the most positive 6 adjectives reduces violent completions for "Muslims"
from 66% to 20%, but which is still higher than for other religious groups.
- Abstract(参考訳): 大規模言語モデルは望ましくない社会的バイアスを捉えていることが観察されている。
人種や性別に関連するが、宗教的な偏見は比較的探究されていない。
我々は、現在最先端の文脈言語モデルであるGPT-3が、永続的なムスリム-暴力バイアスを捉えていることを実証した。
我々は, GPT-3を, 即時完成, 類推, 物語生成など様々な方法で探索し, この反ムスリムバイアスを理解するとともに, モデルが異なる用途で一貫して, 創造的に現れること, 他宗教集団のバイアスと比較しても深刻であることを実証した。
例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
敵対的なテキストプロンプトでこのバイアスを克服するために必要なポジティブな注意を定量化し、最もポジティブな6つの形容詞の使用は「ムスリム」の暴力的な完成度を66%から20%に減少させるが、他の宗教グループよりは依然として高い。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Exploring Bengali Religious Dialect Biases in Large Language Models with Evaluation Perspectives [5.648318448953635]
大規模言語モデル(LLM)はステレオタイプとバイアスを含む出力を生成することができる。
我々はベンガル語における宗教的な視点から偏見を探求し、特にヒンドゥー語とムスリム・マジョリティの2つの主要な宗教方言に焦点を当てている。
論文 参考訳(メタデータ) (2024-07-25T20:19:29Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Muslim-Violence Bias Persists in Debiased GPT Models [18.905135223612046]
宗教にまつわる一般的な名前を使って、プロンプトは暴力的な完成率を数倍に高めている。
この結果から,モデルの連続的非バイアス化の必要性が示唆された。
論文 参考訳(メタデータ) (2023-10-25T19:39:58Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - PACO: Provocation Involving Action, Culture, and Oppression [13.70482307997736]
インドでは、宗教などの特定の属性に基づいて特定の集団を識別する。
同じ宗教団体が互いに反対することが多い。
以前の研究では、インドの2つの著名な宗教グループ、ヒンドゥー教徒とムスリムの間の緊張を増す上で、挑発の役割が示されていた。
論文 参考訳(メタデータ) (2023-03-19T04:39:36Z) - Debiased Large Language Models Still Associate Muslims with Uniquely
Violent Acts [24.633323508534254]
宗教にまつわる一般的な名称をプロンプトで使うと、暴力的な完成が著しく増加する。
非暴力的な領域から来たムスリムの有名人の名前は、暴力的な完成度が比較的少なかった。
以上の結果から,高次スキーマやアソシエーションに対処するため,大規模言語モデルのデバイアス化の必要性が示唆された。
論文 参考訳(メタデータ) (2022-08-08T20:59:16Z) - Intersectional Bias in Causal Language Models [0.0]
我々は,emphGPT-2およびemphGPT-NEOモデルについて検討した。
我々は、性別、宗教、障害の3つの社会的カテゴリを無条件またはゼロショットのプロンプトに組み合わせて実験を行う。
EmphGPTモデルを含む自己回帰因果モデルを用いて実施した先行試験を確認した。
論文 参考訳(メタデータ) (2021-07-16T03:46:08Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。