論文の概要: Muslim-Violence Bias Persists in Debiased GPT Models
- arxiv url: http://arxiv.org/abs/2310.18368v1
- Date: Wed, 25 Oct 2023 19:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:41:18.916883
- Title: Muslim-Violence Bias Persists in Debiased GPT Models
- Title(参考訳): GPTモデルにおけるムスリム・ヴィオレンスバイアスパーシスト
- Authors: Babak Hemmatian, Razan Baltaji, Lav R. Varshney
- Abstract要約: GPT-3は、他の宗教と比較してイスラム教徒に対して暴力的な完成をもたらす傾向を示した。
宗教にまつわる一般的な名前を使って、プロンプトは暴力的な完成率を数倍に高めている。
内容分析の結果、急激な形式によらず、非常に攻撃的な考えを含む宗教特有の暴力的テーマが明らかになった。
- 参考スコア(独自算出の注目度): 18.905135223612046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abid et al. (2021) showed a tendency in GPT-3 to generate violent completions
when prompted about Muslims, compared with other religions. Two pre-registered
replication attempts found few violent completions and only the weakest
anti-Muslim bias in the Instruct version, fine-tuned to eliminate biased and
toxic outputs. However, more pre-registered experiments showed that using
common names associated with the religions in prompts increases several-fold
the rate of violent completions, revealing a highly significant second-order
bias against Muslims. Our content analysis revealed religion-specific violent
themes containing highly offensive ideas regardless of prompt format.
Replications with ChatGPT suggest that any effects of GPT-3's de-biasing have
disappeared with continued model development, as this newer model showed both a
strong Muslim-violence bias and rates of violent completions closer to Abid et
al. (2021). Our results show the need for continual de-biasing of models in
ways that address higher-order associations.
- Abstract(参考訳): Abid et al. (2021)は、他の宗教と比較してイスラム教徒に対して暴力的な完成をもたらす傾向を示した。
事前登録された2つの複製の試みでは、暴力的な完了がほとんどなく、インストラクト版で最も弱い反ムスリムバイアスのみが見出され、偏りと有害な出力を除去するために微調整された。
しかし、より事前登録された実験では、宗教に関連する一般的な名前を使って暴力的な完成率を数倍に増やすことが示され、ムスリムに対する二階偏見は極めて顕著であった。
内容分析の結果、急激な形式によらず、非常に攻撃的な考えを含む宗教特有の暴力的テーマが明らかになった。
ChatGPTとの重複は、GPT-3の脱バイアスの影響は、モデル開発が継続して消失し、新しいモデルでは、強いイスラム教徒の暴力バイアスと、アブドらに近い暴力的な完成率(2021年)の両方が示されたことを示唆している。
以上の結果から,高次関係に対処したモデルの連続的脱バイアスの必要性が示唆された。
関連論文リスト
- Bias Amplification: Language Models as Increasingly Biased Media [13.556583047930065]
本稿では,バイアス増幅に必要な十分条件を定義する理論的枠組みを提案する。
我々は GPT-2 を用いて実験を行い, バイアス増幅を実証した。
保存と蓄積の両方がバイアス増幅とモデル崩壊を効果的に緩和することがわかった。
論文 参考訳(メタデータ) (2024-10-19T22:53:27Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Debiased Large Language Models Still Associate Muslims with Uniquely
Violent Acts [24.633323508534254]
宗教にまつわる一般的な名称をプロンプトで使うと、暴力的な完成が著しく増加する。
非暴力的な領域から来たムスリムの有名人の名前は、暴力的な完成度が比較的少なかった。
以上の結果から,高次スキーマやアソシエーションに対処するため,大規模言語モデルのデバイアス化の必要性が示唆された。
論文 参考訳(メタデータ) (2022-08-08T20:59:16Z) - Reducing the Vision and Language Bias for Temporal Sentence Grounding [22.571577672704716]
本稿では,視覚と言語の両方において負のバイアスをフィルタし,除去するためのD-TSGモデルを提案する。
3つのベンチマークデータセット上で最先端の性能を達成することで、その効果を実証する。
論文 参考訳(メタデータ) (2022-07-27T11:18:45Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Persistent Anti-Muslim Bias in Large Language Models [13.984800635696566]
最新の文脈言語モデルであるGPT-3は、永続的なムスリム-暴力バイアスを捕捉する。
我々は, GPT-3 を様々な方法で探索し, 即時完了, 類似推論, 物語生成を行う。
例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
論文 参考訳(メタデータ) (2021-01-14T18:41:55Z) - "Thy algorithm shalt not bear false witness": An Evaluation of
Multiclass Debiasing Methods on Word Embeddings [3.0204693431381515]
本稿では,最先端のマルチクラス・デバイアス技術であるハード・デバイアス,ソフトウィート・デバイアス,コンセプタ・デバイアスについて検討する。
単語埋め込みアソシエーションテスト(WEAT)、平均コサイン類似度(MAC)、相対負性感覚バイアス(RNSB)によるバイアス除去を定量化することにより、共通のバイアス除去時のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-10-30T12:49:39Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。