論文の概要: Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?
- arxiv url: http://arxiv.org/abs/2507.19195v1
- Date: Fri, 25 Jul 2025 12:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.941656
- Title: Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?
- Title(参考訳): 大規模言語モデルにおける辞書リンクバイアスの悪化は可能か?
- Authors: Chaymaa Abbas, Mariette Awad, Razane Tajeddine,
- Abstract要約: 本研究は、方言の変化、特にアフリカ系アメリカ人英語(AAVE)と標準アメリカ英語(SAE)について検討する。
毒性データへの最小限の曝露でもAAVE入力の毒性は著しく上昇するが、SAEには影響を受けない。
これらの相違を更に評価するため,我々はGPT-4oをフェアネス監査機として使用し,有害なステレオタイプパターンをAAVE入力と不一致に同定した。
- 参考スコア(独自算出の注目度): 2.5316085118743423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the ongoing improvements in the design of large language models (LLMs) to foster inclusion and balanced responses, these systems remain susceptible to encoding and amplifying social biases. This study examines how dialectal variation, specifically African American Vernacular English (AAVE) versus Standard American English (SAE), interacts with data poisoning to influence toxicity in outputs. Using both small- and medium-scale LLaMA models, we show that even minimal exposure to poisoned data significantly increases toxicity for AAVE inputs, while it remains comparatively unaffected for SAE. Larger models exhibit a more significant amplification effect which suggests heightened susceptibility with scale. To further assess these disparities, we employed GPT-4o as a fairness auditor, which identified harmful stereotypical patterns disproportionately tied to AAVE inputs, including portrayals of aggression, criminality, and intellectual inferiority. These findings underscore the compounding impact of data poisoning and dialectal bias and emphasize the need for dialect-aware evaluation, targeted debiasing interventions, and socially responsible training protocols during development.
- Abstract(参考訳): 大きな言語モデル(LLM)の設計が改良され、包摂性やバランスの取れた応答が促進されているにもかかわらず、これらのシステムは、エンコーディングや社会的偏見の増幅の影響を受けやすいままである。
本研究では,特にアフリカ・アメリカン・バーナキュラー・イングリッシュ (AAVE) と標準・アメリカン・イングリッシュ (SAE) の方言変化が,アウトプットの毒性に影響を与えるためにデータ中毒とどのように相互作用するかを検討する。
小型・中規模のLLaMAモデルを用いて, 毒性データへの最小限の曝露でも, AAVE入力の毒性は著しく上昇するが, SAEには影響しない。
より大きなモデルはより顕著な増幅効果を示し、スケールによる感受性を高めることを示唆している。
これらの相違を更に評価するために,我々は,攻撃性,犯罪性,知的劣悪性の描写を含む,AAVE入力に不均衡に結びついている有害なステレオタイプパターンを識別するフェアネス監査機としてGPT-4oを用いた。
これらの結果は、データ中毒と弁別バイアスの複合的影響を浮き彫りにし、弁別評価の必要性、目的的嫌悪介入、発達過程における社会的責任のあるトレーニングプロトコルを強調した。
関連論文リスト
- Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language Models [3.3408746880885003]
大型言語モデル (LLM) は将来性を示しているが、表面的な手がかりに依存して、急激な予測を導いている。
アルコールや喫煙の言及は、誰もいない現在および過去における薬物使用を予測するために、モデルに誤った誘導を与える可能性があることを実証する。
我々は、これらの偽陽性を減らすために、迅速なエンジニアリングや連鎖推論などの緩和戦略を評価する。
論文 参考訳(メタデータ) (2025-05-30T18:11:33Z) - Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation [6.781972039785424]
近年のジェネレーティブ・大型言語モデル(LLM)は英語以外の言語では顕著な性能を示した。
これらの言語で刺激されると、より有害な社会的偏見と毒性のレベルを表現する傾向がある。
異なる微調整法がモデルのバイアスや毒性に与える影響について検討するが、その効果は、流動的で多様なテキストを生成する能力にも及んでいる。
論文 参考訳(メタデータ) (2024-12-18T17:05:08Z) - Leveraging Large Language Models and Topic Modeling for Toxicity Classification [2.1506858566021037]
コンテンツモデレーションのためのトピック・モデリング手法を用いて,アノテータの位置がデータセットに与える影響について検討した。
その結果,特定のトピックについてモデルを微調整すると,モデルのF1スコアが顕著に向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-26T20:47:24Z) - PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。