論文の概要: Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?
- arxiv url: http://arxiv.org/abs/2507.19195v2
- Date: Thu, 09 Oct 2025 13:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.602167
- Title: Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?
- Title(参考訳): 大規模言語モデルにおける辞書リンクバイアスの悪化は可能か?
- Authors: Chaymaa Abbas, Mariette Awad, Razane Tajeddine,
- Abstract要約: スタイル条件付きデータ中毒は、社会言語バイアスを増幅するための隠蔽ベクトルとして同定される。
この研究は、言語スタイルが有害な行動の潜在的な引き金になるかどうかを調査する。
- 参考スコア(独自算出の注目度): 2.7502681179700694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Style-conditioned data poisoning is identified as a covert vector for amplifying sociolinguistic bias in large language models. Using small poisoned budgets that pair dialectal prompts -- principally African American Vernacular English (AAVE) and a Southern dialect -- with toxic or stereotyped completions during instruction tuning, this work probes whether linguistic style can act as a latent trigger for harmful behavior. Across multiple model families and scales, poisoned exposure elevates toxicity and stereotype expression for dialectal inputs -- most consistently for AAVE -- while Standard American English remains comparatively lower yet not immune. A multi-metric audit combining classifier-based toxicity with an LLM-as-a-judge reveals stereotype-laden content even when lexical toxicity appears muted, indicating that conventional detectors under-estimate sociolinguistic harms. Additionally, poisoned models exhibit emergent jailbreaking despite the absence of explicit slurs in the poison, suggesting weakened alignment rather than memorization. These findings underscore the need for dialect-aware evaluation, content-level stereotype auditing, and training protocols that explicitly decouple style from toxicity to prevent bias amplification through seemingly minor, style-based contamination.
- Abstract(参考訳): スタイル条件付きデータ中毒は、大規模言語モデルにおける社会言語バイアスを増幅するための隠蔽ベクトルとして同定される。
主にアフリカ系アメリカ人の英語(AAVE)と南部方言(英語版)の2つの方言のプロンプトと、指導訓練中に有毒またはステレオタイプ化された完了を組み合わせた小さな有毒な予算を用いて、この研究は、言語スタイルが有害な行動の潜在的引き金として機能するかどうかを調査する。
複数のモデルファミリーやスケールにわたって、有毒な曝露は、方言入力に対する毒性とステレオタイプ表現を上昇させ、特にAAVEは一貫して)、標準アメリカ英語は比較的低いが免疫性はない。
LLM-as-a-judgeと分類器ベースの毒性を組み合わせたマルチメトリック監査では、語彙的毒性がミュートされた場合でもステレオタイプラデン含量を示し、従来の検知器が社会言語学的な害を過小評価していることを示している。
さらに、毒入りのモデルは、毒の中に明らかなスラリーがないにもかかわらず、緊急のジェイルブレイクを示し、記憶よりもアライメントが弱まることを示唆している。
これらの知見は, 味覚評価, 内容レベルのステレオタイプ監査, および有害性からスタイルを明確に切り離して, 一見マイナーなスタイルによる汚染によるバイアス増幅を防止するためのトレーニングプロトコルの必要性を浮き彫りにした。
関連論文リスト
- Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language Models [3.3408746880885003]
大型言語モデル (LLM) は将来性を示しているが、表面的な手がかりに依存して、急激な予測を導いている。
アルコールや喫煙の言及は、誰もいない現在および過去における薬物使用を予測するために、モデルに誤った誘導を与える可能性があることを実証する。
我々は、これらの偽陽性を減らすために、迅速なエンジニアリングや連鎖推論などの緩和戦略を評価する。
論文 参考訳(メタデータ) (2025-05-30T18:11:33Z) - Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation [6.781972039785424]
近年のジェネレーティブ・大型言語モデル(LLM)は英語以外の言語では顕著な性能を示した。
これらの言語で刺激されると、より有害な社会的偏見と毒性のレベルを表現する傾向がある。
異なる微調整法がモデルのバイアスや毒性に与える影響について検討するが、その効果は、流動的で多様なテキストを生成する能力にも及んでいる。
論文 参考訳(メタデータ) (2024-12-18T17:05:08Z) - Leveraging Large Language Models and Topic Modeling for Toxicity Classification [2.1506858566021037]
コンテンツモデレーションのためのトピック・モデリング手法を用いて,アノテータの位置がデータセットに与える影響について検討した。
その結果,特定のトピックについてモデルを微調整すると,モデルのF1スコアが顕著に向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-26T20:47:24Z) - PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。