論文の概要: Debiased Large Language Models Still Associate Muslims with Uniquely
Violent Acts
- arxiv url: http://arxiv.org/abs/2208.04417v2
- Date: Wed, 10 Aug 2022 13:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 10:48:33.488272
- Title: Debiased Large Language Models Still Associate Muslims with Uniquely
Violent Acts
- Title(参考訳): イスラム教徒と非暴力的行為を関連づけた大規模言語モデル
- Authors: Babak Hemmatian, Lav R. Varshney
- Abstract要約: 宗教にまつわる一般的な名称をプロンプトで使うと、暴力的な完成が著しく増加する。
非暴力的な領域から来たムスリムの有名人の名前は、暴力的な完成度が比較的少なかった。
以上の結果から,高次スキーマやアソシエーションに対処するため,大規模言語モデルのデバイアス化の必要性が示唆された。
- 参考スコア(独自算出の注目度): 24.633323508534254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work demonstrates a bias in the GPT-3 model towards generating violent
text completions when prompted about Muslims, compared with Christians and
Hindus. Two pre-registered replication attempts, one exact and one approximate,
found only the weakest bias in the more recent Instruct Series version of
GPT-3, fine-tuned to eliminate biased and toxic outputs. Few violent
completions were observed. Additional pre-registered experiments, however,
showed that using common names associated with the religions in prompts yields
a highly significant increase in violent completions, also revealing a stronger
second-order bias against Muslims. Names of Muslim celebrities from non-violent
domains resulted in relatively fewer violent completions, suggesting that
access to individualized information can steer the model away from using
stereotypes. Nonetheless, content analysis revealed religion-specific violent
themes containing highly offensive ideas regardless of prompt format. Our
results show the need for additional debiasing of large language models to
address higher-order schemas and associations.
- Abstract(参考訳): 近年の研究では、キリスト教やヒンドゥー教と比較して、イスラム教徒に対して暴力的なテキスト完成を誘発するGPT-3モデルのバイアスが示されている。
2つの事前登録された複製試行は、1つは正確に1つは近似しており、より最近のGPT-3のインストラクトシリーズの最も弱いバイアスしか見つからなかった。
暴力的な完成は殆ど観測されなかった。
しかし、追加の登録済みの実験では、宗教に関連する一般的な名前を使って、暴力的な完成が著しく増加し、ムスリムに対する二階偏見が強まった。
非暴力的なドメインからのムスリムの有名人の名前は比較的暴力的な完成率を低下させ、個人化された情報へのアクセスはステレオタイプの使用からモデルを遠ざけることを示唆している。
それにもかかわらず、コンテンツ分析は、プロンプト形式に関係なく、非常に不快な考えを含む宗教特有の暴力的なテーマを明らかにした。
以上の結果から,高次スキーマやアソシエーションに対応するために,大規模言語モデルのさらなるデバイアスの必要性が示された。
関連論文リスト
- Bias Amplification: Language Models as Increasingly Biased Media [13.556583047930065]
本稿では,バイアス増幅に必要な十分条件を定義する理論的枠組みを提案する。
我々は GPT-2 を用いて実験を行い, バイアス増幅を実証した。
保存と蓄積の両方がバイアス増幅とモデル崩壊を効果的に緩和することがわかった。
論文 参考訳(メタデータ) (2024-10-19T22:53:27Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - Exploring Bengali Religious Dialect Biases in Large Language Models with Evaluation Perspectives [5.648318448953635]
大規模言語モデル(LLM)はステレオタイプとバイアスを含む出力を生成することができる。
我々はベンガル語における宗教的な視点から偏見を探求し、特にヒンドゥー語とムスリム・マジョリティの2つの主要な宗教方言に焦点を当てている。
論文 参考訳(メタデータ) (2024-07-25T20:19:29Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Muslim-Violence Bias Persists in Debiased GPT Models [18.905135223612046]
宗教にまつわる一般的な名前を使って、プロンプトは暴力的な完成率を数倍に高めている。
この結果から,モデルの連続的非バイアス化の必要性が示唆された。
論文 参考訳(メタデータ) (2023-10-25T19:39:58Z) - Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models [11.330830398772582]
本研究では, 広範囲にわたる大規模言語モデルから有害な内容を反復的に引き出す, テキスト毒性ウサギ穴という新しい枠組みを提案する。
我々は、人種差別、反ユダヤ主義、ミソジニー、イスラム恐怖症、ホモフォビア、トランスフォビアに重点を置いた幅広い分析を行った。
論文 参考訳(メタデータ) (2023-09-08T03:59:02Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - Persistent Anti-Muslim Bias in Large Language Models [13.984800635696566]
最新の文脈言語モデルであるGPT-3は、永続的なムスリム-暴力バイアスを捕捉する。
我々は, GPT-3 を様々な方法で探索し, 即時完了, 類似推論, 物語生成を行う。
例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
論文 参考訳(メタデータ) (2021-01-14T18:41:55Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。