論文の概要: Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14710v2
- Date: Wed, 3 Apr 2024 09:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:37:29.447283
- Title: Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models
- Title(参考訳): バックドアとしてのインストラクション:大規模言語モデルのためのインストラクションチューニングのバックドア脆弱性
- Authors: Jiashu Xu, Mingyu Derek Ma, Fei Wang, Chaowei Xiao, Muhao Chen,
- Abstract要約: 本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
- 参考スコア(独自算出の注目度): 53.416234157608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate security concerns of the emergent instruction tuning paradigm, that models are trained on crowdsourced datasets with task instructions to achieve superior performance. Our studies demonstrate that an attacker can inject backdoors by issuing very few malicious instructions (~1000 tokens) and control model behavior through data poisoning, without even the need to modify data instances or labels themselves. Through such instruction attacks, the attacker can achieve over 90% attack success rate across four commonly used NLP datasets. As an empirical study on instruction attacks, we systematically evaluated unique perspectives of instruction attacks, such as poison transfer where poisoned models can transfer to 15 diverse generative datasets in a zero-shot manner; instruction transfer where attackers can directly apply poisoned instruction on many other datasets; and poison resistance to continual finetuning. Lastly, we show that RLHF and clean demonstrations might mitigate such backdoors to some degree. These findings highlight the need for more robust defenses against poisoning attacks in instruction-tuning models and underscore the importance of ensuring data quality in instruction crowdsourcing.
- Abstract(参考訳): 本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
我々の研究は、攻撃者がデータインスタンスやラベル自体を変更する必要なしに、悪意のある命令(~1000トークン)を非常に少なく発行し、データ中毒によるモデル動作を制御することによって、バックドアを注入できることを実証している。
このような命令攻撃により、攻撃者は4つの一般的なNLPデータセットで90%以上の攻撃成功率を達成することができる。
命令攻撃に関する実証的研究として, 毒素モデルが15の多様な生成データセットにゼロショットで転送可能な毒素移動, 攻撃者が直接他の多くのデータセットに毒素命令を適用可能な命令伝達, 連続的な微調整に対する毒素耐性など, 命令攻撃の独特な視点を系統的に評価した。
最後に、RLHFとクリーンなデモは、バックドアをある程度緩和する可能性があることを示す。
これらの知見は, 指導指導モデルにおける中毒攻撃に対するより堅牢な防御の必要性を浮き彫りにし, 指導クラウドソーシングにおけるデータ品質の確保の重要性を強調している。
関連論文リスト
- Mellivora Capensis: A Backdoor-Free Training Framework on the Poisoned Dataset without Auxiliary Data [29.842087372804905]
本稿では,現実シナリオにおけるバックドア攻撃対策の課題について述べる。
本稿では,モデルトレーナーが有毒なデータセット上でクリーンなモデルをトレーニングできるようにする,堅牢でクリーンなデータのないバックドア防御フレームワークであるMellivora Capensis(textttMeCa)を提案する。
論文 参考訳(メタデータ) (2024-05-21T12:20:19Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Towards Understanding How Self-training Tolerates Data Backdoor
Poisoning [11.817302291033725]
バックドア攻撃を緩和するためのラベルのない追加データによる自己学習の可能性を探る。
新たな自己訓練体制は、バックドア攻撃に対する防衛に大いに役立ちます。
論文 参考訳(メタデータ) (2023-01-20T16:36:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - False Memory Formation in Continual Learners Through Imperceptible
Backdoor Trigger [3.3439097577935213]
連続的な(漸進的な)学習モデルに提示される新しい情報を逐次学習すること。
知的敵は、訓練中に、特定のタスクやクラスを意図的に忘れないように、少量の誤報をモデルに導入できることを示す。
筆者らは、一般的に使われている生成的リプレイと正規化に基づく連続学習アプローチに「バックドア」攻撃サンプルを注入することにより、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2022-02-09T14:21:13Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z) - Targeted Forgetting and False Memory Formation in Continual Learners
through Adversarial Backdoor Attacks [2.830541450812474]
破滅的な忘れ物を避けるために,一般的な連続学習アルゴリズムであるElastic Weight Consolidation (EWC)の脆弱性について検討する。
知的敵は、EWCの防御を回避でき、訓練中に少量の誤報をモデルに導入することで、段階的かつ故意に忘れることを引き起こす。
MNISTデータセットの置換型と分割型の両方に"バックドア"攻撃サンプルを注入することで、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2020-02-17T18:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。