論文の概要: Cascading Adversarial Bias from Injection to Distillation in Language Models
- arxiv url: http://arxiv.org/abs/2505.24842v1
- Date: Fri, 30 May 2025 17:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.105993
- Title: Cascading Adversarial Bias from Injection to Distillation in Language Models
- Title(参考訳): 言語モデルにおける注入から蒸留への逆転バイアスのカスケード
- Authors: Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea,
- Abstract要約: 本稿では, 蒸留モデルによる学習中のバイアス成分の逆注入に対する脆弱性について検討する。
我々は,教師モデルに対して,データ中毒を最小限に抑えて微妙な偏見を注入できることを実証した。
本稿では,効果的な対向バイアス緩和戦略を構築するための実用的な設計原則を提案する。
- 参考スコア(独自算出の注目度): 38.38782840888917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model distillation has become essential for creating smaller, deployable language models that retain larger system capabilities. However, widespread deployment raises concerns about resilience to adversarial manipulation. This paper investigates vulnerability of distilled models to adversarial injection of biased content during training. We demonstrate that adversaries can inject subtle biases into teacher models through minimal data poisoning, which propagates to student models and becomes significantly amplified. We propose two propagation modes: Untargeted Propagation, where bias affects multiple tasks, and Targeted Propagation, focusing on specific tasks while maintaining normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning rate), student models generate biased responses 76.9% of the time in targeted scenarios - higher than 69.4% in teacher models. For untargeted propagation, adversarial bias appears 6x-29x more frequently in student models on unseen tasks. We validate findings across six bias types (targeted advertisements, phishing links, narrative manipulations, insecure coding practices), various distillation methods, and different modalities spanning text and code generation. Our evaluation reveals shortcomings in current defenses - perplexity filtering, bias detection systems, and LLM-based autorater frameworks - against these attacks. Results expose significant security vulnerabilities in distilled models, highlighting need for specialized safeguards. We propose practical design principles for building effective adversarial bias mitigation strategies.
- Abstract(参考訳): モデル蒸留は、より大きなシステム能力を保持する、より小さく、デプロイ可能な言語モデルを作成するために欠かせないものとなっている。
しかし、広範囲に展開することで、敵の操作に対するレジリエンスに対する懸念が高まる。
本稿では, 蒸留モデルによる学習中のバイアス成分の逆注入に対する脆弱性について検討する。
我々は,教師モデルに微妙な偏見を最小限のデータ中毒によって注入できることを実証し,学生モデルに伝播し,著しく増幅されることを示した。
本稿では,複数のタスクに偏りが影響する非目標伝搬と,他のタスクに焦点を合わせながら通常の動作を維持しながら特定のタスクに焦点をあてるターゲット伝搬という2つの伝搬モードを提案する。
25の有毒サンプル(0.25%の有毒率)しか持たない学生モデルは、標的シナリオの76.9%の時間、教師モデルでは69.4%以上、偏見のある反応を生成する。
対象外伝播では, 生徒モデルでは, 対向バイアスが6x-29倍頻繁に現れる。
6種類のバイアスタイプ(ターゲット広告、フィッシングリンク、ナラティブ操作、安全でないコーディングプラクティス)、様々な蒸留方法、テキストとコード生成にまたがるさまざまなモダリティ)にまたがる知見を検証した。
我々の評価は、これらの攻撃に対する現在の防御(パープレキシティ・フィルタリング、バイアス検出システム、LLMベースのオートレータ・フレームワーク)の欠点を明らかにしている。
その結果、蒸留されたモデルにおいて重大なセキュリティ上の脆弱性が明らかとなり、特別な保護の必要性が強調された。
本稿では,効果的な対向バイアス緩和戦略を構築するための実用的な設計原則を提案する。
関連論文リスト
- Defending Against Frequency-Based Attacks with Diffusion Models [0.23020018305241333]
拡散モデルは、画素単位の逆方向の摂動に対処するだけでなく、非逆方向のデータシフトに対処する上でも非常に有効であることが証明されている。
本研究は,低周波領域から高周波領域への多彩な歪みパターンの取り扱いの有効性を明らかにする。
論文 参考訳(メタデータ) (2025-04-15T09:57:17Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - AdvDiff: Generating Unrestricted Adversarial Examples using Diffusion Models [7.406040859734522]
制限のない敵攻撃は、深層学習モデルや敵防衛技術に深刻な脅威をもたらす。
以前の攻撃法は、しばしば生成モデルのサンプリングに投影された勾配(PGD)を直接注入する。
本稿では,拡散モデルを用いた非制限逆例を生成するAdvDiffと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T03:10:02Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。