論文の概要: Debiased Large Language Models Still Associate Muslims with Uniquely
Violent Acts
- arxiv url: http://arxiv.org/abs/2208.04417v1
- Date: Mon, 8 Aug 2022 20:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:02:55.117621
- Title: Debiased Large Language Models Still Associate Muslims with Uniquely
Violent Acts
- Title(参考訳): イスラム教徒と非暴力的行為を関連づけた大規模言語モデル
- Authors: Babak Hemmatian, Lav R. Varshney
- Abstract要約: 宗教にまつわる一般的な名称をプロンプトで使うと、暴力的な完成が著しく増加する。
非暴力的な領域から来たムスリムの有名人の名前は、暴力的な完成度が比較的少なかった。
以上の結果から,高次スキーマやアソシエーションに対処するため,大規模言語モデルのデバイアス化の必要性が示唆された。
- 参考スコア(独自算出の注目度): 24.633323508534254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work demonstrates a bias in the GPT-3 model towards generating violent
text completions when prompted about Muslims, compared with Christians and
Hindus. Two pre-registered replication attempts, one exact and one approximate,
found only the weakest bias in the more recent Instruct Series version of
GPT-3, fine-tuned to eliminate biased and toxic outputs. Few violent
completions were observed. Additional pre-registered experiments, however,
showed that using common names associated with the religions in prompts yields
a highly significant increase in violent completions, also revealing a stronger
second-order bias against Muslims. Names of Muslim celebrities from non-violent
domains resulted in relatively fewer violent completions, suggesting that
access to individualized information can steer the model away from using
stereotypes. Nonetheless, content analysis revealed religion-specific violent
themes containing highly offensive ideas regardless of prompt format. Our
results show the need for additional debiasing of large language models to
address higher-order schemas and associations.
- Abstract(参考訳): 近年の研究では、キリスト教やヒンドゥー教と比較して、イスラム教徒に対して暴力的なテキスト完成を誘発するGPT-3モデルのバイアスが示されている。
2つの事前登録された複製試行は、1つは正確に1つは近似しており、より最近のGPT-3のインストラクトシリーズの最も弱いバイアスしか見つからなかった。
暴力的な完成は殆ど観測されなかった。
しかし、追加の登録済みの実験では、宗教に関連する一般的な名前を使って、暴力的な完成が著しく増加し、ムスリムに対する二階偏見が強まった。
非暴力的なドメインからのムスリムの有名人の名前は比較的暴力的な完成率を低下させ、個人化された情報へのアクセスはステレオタイプの使用からモデルを遠ざけることを示唆している。
それにもかかわらず、コンテンツ分析は、プロンプト形式に関係なく、非常に不快な考えを含む宗教特有の暴力的なテーマを明らかにした。
以上の結果から,高次スキーマやアソシエーションに対応するために,大規模言語モデルのさらなるデバイアスの必要性が示された。
関連論文リスト
- What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Muslim-Violence Bias Persists in Debiased GPT Models [18.905135223612046]
宗教にまつわる一般的な名前を使って、プロンプトは暴力的な完成率を数倍に高めている。
この結果から,モデルの連続的非バイアス化の必要性が示唆された。
論文 参考訳(メタデータ) (2023-10-25T19:39:58Z) - PACO: Provocation Involving Action, Culture, and Oppression [13.70482307997736]
インドでは、宗教などの特定の属性に基づいて特定の集団を識別する。
同じ宗教団体が互いに反対することが多い。
以前の研究では、インドの2つの著名な宗教グループ、ヒンドゥー教徒とムスリムの間の緊張を増す上で、挑発の役割が示されていた。
論文 参考訳(メタデータ) (2023-03-19T04:39:36Z) - Exploring Hate Speech Detection with HateXplain and BERT [2.673732496490253]
ヘイトスピーチは、軽蔑的なコメントでコミュニティを狙うために多くの形態を採り、社会進歩の一歩を遡る。
HateXplainは、音声分類カテゴリとターゲットコミュニティとともに、合理的な形で注釈付きスパンを使用する、最近発表された最初のデータセットである。
このタスクを合理性とクラス予測という形で実行するようにBERTをチューニングし、正確性、説明可能性、バイアスにまたがるさまざまなメトリクスのパフォーマンスを比較します。
論文 参考訳(メタデータ) (2022-08-09T01:32:44Z) - The World of an Octopus: How Reporting Bias Influences a Language
Model's Perception of Color [73.70233477125781]
報告バイアスがテキストのみのトレーニングに悪影響を及ぼし、本質的に制限されていることを示す。
次に、マルチモーダルモデルが視覚的トレーニングを利用してこれらの効果を緩和できることを実証する。
論文 参考訳(メタデータ) (2021-10-15T16:28:17Z) - Persistent Anti-Muslim Bias in Large Language Models [13.984800635696566]
最新の文脈言語モデルであるGPT-3は、永続的なムスリム-暴力バイアスを捕捉する。
我々は, GPT-3 を様々な方法で探索し, 即時完了, 類似推論, 物語生成を行う。
例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
論文 参考訳(メタデータ) (2021-01-14T18:41:55Z) - "Thy algorithm shalt not bear false witness": An Evaluation of
Multiclass Debiasing Methods on Word Embeddings [3.0204693431381515]
本稿では,最先端のマルチクラス・デバイアス技術であるハード・デバイアス,ソフトウィート・デバイアス,コンセプタ・デバイアスについて検討する。
単語埋め込みアソシエーションテスト(WEAT)、平均コサイン類似度(MAC)、相対負性感覚バイアス(RNSB)によるバイアス除去を定量化することにより、共通のバイアス除去時のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-10-30T12:49:39Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。