論文の概要: Muslim-Violence Bias Persists in Debiased GPT Models
- arxiv url: http://arxiv.org/abs/2310.18368v2
- Date: Sat, 9 Dec 2023 18:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 19:18:54.146920
- Title: Muslim-Violence Bias Persists in Debiased GPT Models
- Title(参考訳): GPTモデルにおけるムスリム・ヴィオレンスバイアスパーシスト
- Authors: Babak Hemmatian, Razan Baltaji, Lav R. Varshney
- Abstract要約: 宗教にまつわる一般的な名前を使って、プロンプトは暴力的な完成率を数倍に高めている。
この結果から,モデルの連続的非バイアス化の必要性が示唆された。
- 参考スコア(独自算出の注目度): 18.905135223612046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abid et al. (2021) showed a tendency in GPT-3 to generate mostly violent
completions when prompted about Muslims, compared with other religions. Two
pre-registered replication attempts found few violent completions and only a
weak anti-Muslim bias in the more recent InstructGPT, fine-tuned to eliminate
biased and toxic outputs. However, more pre-registered experiments showed that
using common names associated with the religions in prompts increases
several-fold the rate of violent completions, revealing a significant
second-order anti-Muslim bias. ChatGPT showed a bias many times stronger
regardless of prompt format, suggesting that the effects of debiasing were
reduced with continued model development. Our content analysis revealed
religion-specific themes containing offensive stereotypes across all
experiments. Our results show the need for continual de-biasing of models in
ways that address both explicit and higher-order associations.
- Abstract(参考訳): Abid et al. (2021)は、他の宗教と比較すると、イスラム教徒に対して暴力的な完成をもたらす傾向を示した。
事前登録された2つの複製の試みでは、より最近のInstructGPTでは暴力的な完了はほとんどなく、より弱い反イスラムバイアスしか見つからなかった。
しかし、より事前登録された実験では、宗教に関連する一般的な名前を使って暴力的な完成率を数倍に増やすことが示され、二階の反ムスリムバイアスが顕著であった。
chatgptはプロンプト形式によらず何倍も強いバイアスを示し,モデル開発の継続とともにデバイアスの効果が低下したことが示唆された。
内容分析の結果,あらゆる実験で攻撃的ステレオタイプを含む宗教固有のテーマが明らかにされた。
以上の結果から,明示的および高次な関係に対応するために,モデルの連続的脱バイアスの必要性が示唆された。
関連論文リスト
- What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [87.84850806865059]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs [3.5342505775640247]
ユーザが質問し、調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを提示する。
デモでは、選択されたバイアスのそれぞれを表すテキストに微調整されたモデルを使用して、この質問に答える。
基礎となるモデルをトレーニングするために、11の異なるバイアス(政治的、地理的、性別、年齢)を特定し、各回答がこれらの階層の1人によって書かれた指導学習コーパスを導出した。
論文 参考訳(メタデータ) (2023-09-07T17:41:01Z) - Debiased Large Language Models Still Associate Muslims with Uniquely
Violent Acts [24.633323508534254]
宗教にまつわる一般的な名称をプロンプトで使うと、暴力的な完成が著しく増加する。
非暴力的な領域から来たムスリムの有名人の名前は、暴力的な完成度が比較的少なかった。
以上の結果から,高次スキーマやアソシエーションに対処するため,大規模言語モデルのデバイアス化の必要性が示唆された。
論文 参考訳(メタデータ) (2022-08-08T20:59:16Z) - Reducing the Vision and Language Bias for Temporal Sentence Grounding [22.571577672704716]
本稿では,視覚と言語の両方において負のバイアスをフィルタし,除去するためのD-TSGモデルを提案する。
3つのベンチマークデータセット上で最先端の性能を達成することで、その効果を実証する。
論文 参考訳(メタデータ) (2022-07-27T11:18:45Z) - NeuS: Neutral Multi-News Summarization for Mitigating Framing Bias [54.89737992911079]
様々な政治スペクトルの複数のニュース見出しから中立的な要約を生成する新しい課題を提案する。
最も興味深い観察の1つは、生成モデルは、事実的に不正確なコンテンツや検証不可能なコンテンツだけでなく、政治的に偏ったコンテンツにも幻覚を与えることができることである。
論文 参考訳(メタデータ) (2022-04-11T07:06:01Z) - Persistent Anti-Muslim Bias in Large Language Models [13.984800635696566]
最新の文脈言語モデルであるGPT-3は、永続的なムスリム-暴力バイアスを捕捉する。
我々は, GPT-3 を様々な方法で探索し, 即時完了, 類似推論, 物語生成を行う。
例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
論文 参考訳(メタデータ) (2021-01-14T18:41:55Z) - "Thy algorithm shalt not bear false witness": An Evaluation of
Multiclass Debiasing Methods on Word Embeddings [3.0204693431381515]
本稿では,最先端のマルチクラス・デバイアス技術であるハード・デバイアス,ソフトウィート・デバイアス,コンセプタ・デバイアスについて検討する。
単語埋め込みアソシエーションテスト(WEAT)、平均コサイン類似度(MAC)、相対負性感覚バイアス(RNSB)によるバイアス除去を定量化することにより、共通のバイアス除去時のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-10-30T12:49:39Z) - Mitigating Gender Bias Amplification in Distribution by Posterior
Regularization [75.3529537096899]
本稿では,男女差の増幅問題について,分布の観点から検討する。
後続正則化に基づくバイアス緩和手法を提案する。
私たちの研究はバイアス増幅の理解に光を当てている。
論文 参考訳(メタデータ) (2020-05-13T11:07:10Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。