論文の概要: Backdooring Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.13427v1
- Date: Fri, 13 Feb 2026 20:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.028466
- Title: Backdooring Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるバックドアバイアス
- Authors: Anudeep Das, Prach Chantasantitam, Gurjot Singh, Lipeng He, Mariia Ponomarenko, Florian Kerschbaum,
- Abstract要約: 大きな言語モデル(LLM)は、特定のトピックに対する偏見を誘発する設定に、ますます多くデプロイされている。
バックドア攻撃はそのようなモデルを作成するのに使用できる。
我々は,高毒性比とデータ増大量を用いた1000以上の評価を行い,分析を行った。
- 参考スコア(独自算出の注目度): 14.716606966924495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in settings where inducing a bias toward a certain topic can have significant consequences, and backdoor attacks can be used to produce such models. Prior work on backdoor attacks has largely focused on a black-box threat model, with an adversary targeting the model builder's LLM. However, in the bias manipulation setting, the model builder themselves could be the adversary, warranting a white-box threat model where the attacker's ability to poison, and manipulate the poisoned data is substantially increased. Furthermore, despite growing research in semantically-triggered backdoors, most studies have limited themselves to syntactically-triggered attacks. Motivated by these limitations, we conduct an analysis consisting of over 1000 evaluations using higher poisoning ratios and greater data augmentation to gain a better understanding of the potential of syntactically- and semantically-triggered backdoor attacks in a white-box setting. In addition, we study whether two representative defense paradigms, model-intrinsic and model-extrinsic backdoor removal, are able to mitigate these attacks. Our analysis reveals numerous new findings. We discover that while both syntactically- and semantically-triggered attacks can effectively induce the target behaviour, and largely preserve utility, semantically-triggered attacks are generally more effective in inducing negative biases, while both backdoor types struggle with causing positive biases. Furthermore, while both defense types are able to mitigate these backdoors, they either result in a substantial drop in utility, or require high computational overhead.
- Abstract(参考訳): 大きな言語モデル(LLM)は、特定のトピックに対するバイアスを誘導する設定にますますデプロイされ、そのようなモデルを生成するためにバックドアアタックが使用されるようになる。
バックドア攻撃の以前の研究は、主にブラックボックスの脅威モデルに焦点を合わせており、モデルビルダーのLSMを標的にしている。
しかし、バイアス操作設定では、モデルビルダー自体が敵になりうるため、攻撃者が有毒データを操作できるホワイトボックスの脅威モデルが大幅に増加する。
さらに、意味的にトリガーされたバックドアの研究が増えているにもかかわらず、ほとんどの研究は構文的にトリガーされた攻撃に制限されている。
これらの制限により, ホワイトボックス環境下での統語的および意味論的に追跡されたバックドア攻撃の可能性をよりよく理解するために, より高い中毒率とデータ拡張を用いた1000以上の評価を行い, 分析を行った。
さらに,2つの代表的な防御パラダイム,モデル内在型およびモデル外在型バックドア除去が,これらの攻撃を軽減できるかどうかを検討した。
我々の分析では、多くの新しい発見が明らかになった。
セマンティックな攻撃とセマンティックな攻撃の両方が効果的に標的の動作を誘導できるのに対し、セマンティックな攻撃は一般的に負のバイアスを引き起こすのに効果的であるが、両バックドアタイプは正のバイアスを引き起こすのに苦労している。
さらに、両防御型はこれらのバックドアを緩和できるが、実用性はかなり低下するか、高い計算オーバーヘッドを必要とする。
関連論文リスト
- A4O: All Trigger for One sample [10.78460062665304]
提案されたバックドアディフェンダーは、トリガーが統一された方法で現れるという仮定に依存することが多い。
本稿では,この単純な仮定が抜け穴を生じさせ,より洗練されたバックドア攻撃を回避できることを示す。
我々は,複数の種類のバックドアトリガーを組み込んだ新たなバックドア攻撃機構を設計し,ステルスネスと有効性に着目した。
論文 参考訳(メタデータ) (2025-01-13T10:38:58Z) - Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。
バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-05-28T07:50:00Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Mitigating Backdoor Poisoning Attacks through the Lens of Spurious
Correlation [43.75579468533781]
バックドアは、特定のトリガーとターゲットラベルでトレーニングインスタンスを作成できる。
本論文は, バックドア毒殺事件は, 単純なテキスト特徴と分類ラベルとの間には明白な相関関係があることを示唆する。
実験により、悪意のあるトリガーはターゲットラベルと高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2023-05-19T11:18:20Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。