Fugu-MT 論文翻訳(概要): Debiased Large Language Models Still Associate Muslims with Uniquely Violent Acts

論文の概要: Debiased Large Language Models Still Associate Muslims with Uniquely Violent Acts

arxiv url: http://arxiv.org/abs/2208.04417v1
Date: Mon, 8 Aug 2022 20:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-10 12:02:55.117621
Title: Debiased Large Language Models Still Associate Muslims with Uniquely Violent Acts
Title（参考訳）: イスラム教徒と非暴力的行為を関連づけた大規模言語モデル
Authors: Babak Hemmatian, Lav R. Varshney
Abstract要約: 宗教にまつわる一般的な名称をプロンプトで使うと、暴力的な完成が著しく増加する。非暴力的な領域から来たムスリムの有名人の名前は、暴力的な完成度が比較的少なかった。以上の結果から,高次スキーマやアソシエーションに対処するため,大規模言語モデルのデバイアス化の必要性が示唆された。
参考スコア（独自算出の注目度）: 24.633323508534254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work demonstrates a bias in the GPT-3 model towards generating violent text completions when prompted about Muslims, compared with Christians and Hindus. Two pre-registered replication attempts, one exact and one approximate, found only the weakest bias in the more recent Instruct Series version of GPT-3, fine-tuned to eliminate biased and toxic outputs. Few violent completions were observed. Additional pre-registered experiments, however, showed that using common names associated with the religions in prompts yields a highly significant increase in violent completions, also revealing a stronger second-order bias against Muslims. Names of Muslim celebrities from non-violent domains resulted in relatively fewer violent completions, suggesting that access to individualized information can steer the model away from using stereotypes. Nonetheless, content analysis revealed religion-specific violent themes containing highly offensive ideas regardless of prompt format. Our results show the need for additional debiasing of large language models to address higher-order schemas and associations.
Abstract（参考訳）: 近年の研究では、キリスト教やヒンドゥー教と比較して、イスラム教徒に対して暴力的なテキスト完成を誘発するGPT-3モデルのバイアスが示されている。 2つの事前登録された複製試行は、1つは正確に1つは近似しており、より最近のGPT-3のインストラクトシリーズの最も弱いバイアスしか見つからなかった。暴力的な完成は殆ど観測されなかった。しかし、追加の登録済みの実験では、宗教に関連する一般的な名前を使って、暴力的な完成が著しく増加し、ムスリムに対する二階偏見が強まった。非暴力的なドメインからのムスリムの有名人の名前は比較的暴力的な完成率を低下させ、個人化された情報へのアクセスはステレオタイプの使用からモデルを遠ざけることを示唆している。それにもかかわらず、コンテンツ分析は、プロンプト形式に関係なく、非常に不快な考えを含む宗教特有の暴力的なテーマを明らかにした。以上の結果から,高次スキーマやアソシエーションに対応するために,大規模言語モデルのさらなるデバイアスの必要性が示された。

関連論文リスト

Is Lying Only Sinful in Islam? Exploring Religious Bias in Multilingual Large Language Models Across Major Religions [1.3340996111165058]
多言語モデルは、しばしば宗教を誤って表現し、宗教的な文脈で正確であるのが困難である。我々は、南アジアの4つの主要な宗教である仏教、キリスト教、ヒンドゥー教、イスラム教に焦点を当てたBRAND: Bilingual Religious Accountable Normデータセットを紹介する。我々の結果は、ベンガル語よりも英語の方が優れた結果を示し、宗教中立の疑問に答える場合でも、一貫してイスラム教に対する偏見を示すことを示している。
論文参考訳（メタデータ） (2025-12-03T16:38:41Z)
Mechanistic Interpretability with SAEs: Probing Religion, Violence, and Geography in Large Language Models [0.0]
本稿では,宗教が大規模言語モデル(LLM)において内部的にどのように表現されるかを検討する。我々は、宗教と暴力に関連するプロンプトの重複を測定し、アクティベーションコンテキストにおける意味パターンを探索する。 5つの宗教はいずれも内部の結束に匹敵するものであるが、イスラム教は暴力的な言語に関連する特徴と結びついていることが多い。
論文参考訳（メタデータ） (2025-09-22T12:09:21Z)
The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage [71.8564105095189]
対象モデルからのテキスト出力のみに依存する会員推論攻撃であるN-Gram Coverage Attackを導入する。我々はまず、N-Gram Coverage Attackが他のブラックボックスメソッドより優れている、様々な既存のベンチマークを実証する。 GPT-4oのような最近のモデルでは、メンバーシップ推論に対するロバスト性が向上していることがわかった。
論文参考訳（メタデータ） (2025-08-13T08:35:16Z)
Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption [51.98089842456886]
そこで本研究では,大規模な言語モデルにおいて,チェーン・オブ・ディフェンシブ・思想と呼ばれる単純な手法を用いて,参照破損に対するロバスト性を大幅に向上したことを示す。特に、メソッドの単純さと適用性を考えると、この改善は驚くべきものです。
論文参考訳（メタデータ） (2025-04-29T13:50:05Z)
Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
論文参考訳（メタデータ） (2025-03-17T18:59:29Z)
Religious Bias Landscape in Language and Text-to-Image Models: Analysis, Detection, and Debiasing Strategies [16.177734242454193]
言語モデルの普及は、言語モデル固有のバイアスに対する批判的な検査の必要性を強調している。本研究では,言語モデルとテキスト・ツー・イメージ生成モデルの両方において,宗教的バイアスを系統的に研究する。
論文参考訳（メタデータ） (2025-01-14T21:10:08Z)
Bias Amplification: Language Models as Increasingly Biased Media [13.556583047930065]
本稿では,バイアス増幅に必要な十分条件を定義する理論的枠組みを提案する。我々は GPT-2 を用いて実験を行い, バイアス増幅を実証した。保存と蓄積の両方がバイアス増幅とモデル崩壊を効果的に緩和することがわかった。
論文参考訳（メタデータ） (2024-10-19T22:53:27Z)
From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文参考訳（メタデータ） (2024-09-18T05:13:18Z)
Exploring Bengali Religious Dialect Biases in Large Language Models with Evaluation Perspectives [5.648318448953635]
大規模言語モデル(LLM)はステレオタイプとバイアスを含む出力を生成することができる。我々はベンガル語における宗教的な視点から偏見を探求し、特にヒンドゥー語とムスリム・マジョリティの2つの主要な宗教方言に焦点を当てている。
論文参考訳（メタデータ） (2024-07-25T20:19:29Z)
White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。 LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。 LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
What's in a Name? Auditing Large Language Models for Race and Gender Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文参考訳（メタデータ） (2024-02-21T18:25:25Z)
What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか? 本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文参考訳（メタデータ） (2023-11-30T18:53:13Z)
Muslim-Violence Bias Persists in Debiased GPT Models [18.905135223612046]
宗教にまつわる一般的な名前を使って、プロンプトは暴力的な完成率を数倍に高めている。この結果から,モデルの連続的非バイアス化の必要性が示唆された。
論文参考訳（メタデータ） (2023-10-25T19:39:58Z)
Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models [11.330830398772582]
本研究では, 広範囲にわたる大規模言語モデルから有害な内容を反復的に引き出す, テキスト毒性ウサギ穴という新しい枠組みを提案する。我々は、人種差別、反ユダヤ主義、ミソジニー、イスラム恐怖症、ホモフォビア、トランスフォビアに重点を置いた幅広い分析を行った。
論文参考訳（メタデータ） (2023-09-08T03:59:02Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。 B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。 B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文参考訳（メタデータ） (2023-01-26T13:58:46Z)
Persistent Anti-Muslim Bias in Large Language Models [13.984800635696566]
最新の文脈言語モデルであるGPT-3は、永続的なムスリム-暴力バイアスを捕捉する。我々は, GPT-3 を様々な方法で探索し, 即時完了, 類似推論, 物語生成を行う。例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
論文参考訳（メタデータ） (2021-01-14T18:41:55Z)
Improving Robustness by Augmenting Training Sentences with Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文参考訳（メタデータ） (2020-10-23T16:22:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。