論文の概要: Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14710v2
- Date: Wed, 3 Apr 2024 09:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:37:29.447283
- Title: Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models
- Title(参考訳): バックドアとしてのインストラクション:大規模言語モデルのためのインストラクションチューニングのバックドア脆弱性
- Authors: Jiashu Xu, Mingyu Derek Ma, Fei Wang, Chaowei Xiao, Muhao Chen,
- Abstract要約: 本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
- 参考スコア(独自算出の注目度): 53.416234157608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate security concerns of the emergent instruction tuning paradigm, that models are trained on crowdsourced datasets with task instructions to achieve superior performance. Our studies demonstrate that an attacker can inject backdoors by issuing very few malicious instructions (~1000 tokens) and control model behavior through data poisoning, without even the need to modify data instances or labels themselves. Through such instruction attacks, the attacker can achieve over 90% attack success rate across four commonly used NLP datasets. As an empirical study on instruction attacks, we systematically evaluated unique perspectives of instruction attacks, such as poison transfer where poisoned models can transfer to 15 diverse generative datasets in a zero-shot manner; instruction transfer where attackers can directly apply poisoned instruction on many other datasets; and poison resistance to continual finetuning. Lastly, we show that RLHF and clean demonstrations might mitigate such backdoors to some degree. These findings highlight the need for more robust defenses against poisoning attacks in instruction-tuning models and underscore the importance of ensuring data quality in instruction crowdsourcing.
- Abstract(参考訳): 本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
我々の研究は、攻撃者がデータインスタンスやラベル自体を変更する必要なしに、悪意のある命令(~1000トークン)を非常に少なく発行し、データ中毒によるモデル動作を制御することによって、バックドアを注入できることを実証している。
このような命令攻撃により、攻撃者は4つの一般的なNLPデータセットで90%以上の攻撃成功率を達成することができる。
命令攻撃に関する実証的研究として, 毒素モデルが15の多様な生成データセットにゼロショットで転送可能な毒素移動, 攻撃者が直接他の多くのデータセットに毒素命令を適用可能な命令伝達, 連続的な微調整に対する毒素耐性など, 命令攻撃の独特な視点を系統的に評価した。
最後に、RLHFとクリーンなデモは、バックドアをある程度緩和する可能性があることを示す。
これらの知見は, 指導指導モデルにおける中毒攻撃に対するより堅牢な防御の必要性を浮き彫りにし, 指導クラウドソーシングにおけるデータ品質の確保の重要性を強調している。
関連論文リスト
- Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Towards Understanding How Self-training Tolerates Data Backdoor
Poisoning [11.817302291033725]
バックドア攻撃を緩和するためのラベルのない追加データによる自己学習の可能性を探る。
新たな自己訓練体制は、バックドア攻撃に対する防衛に大いに役立ちます。
論文 参考訳(メタデータ) (2023-01-20T16:36:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - False Memory Formation in Continual Learners Through Imperceptible
Backdoor Trigger [3.3439097577935213]
連続的な(漸進的な)学習モデルに提示される新しい情報を逐次学習すること。
知的敵は、訓練中に、特定のタスクやクラスを意図的に忘れないように、少量の誤報をモデルに導入できることを示す。
筆者らは、一般的に使われている生成的リプレイと正規化に基づく連続学習アプローチに「バックドア」攻撃サンプルを注入することにより、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2022-02-09T14:21:13Z) - What Doesn't Kill You Makes You Robust(er): Adversarial Training against
Poisons and Backdoors [57.040948169155925]
敵対的なトレーニングフレームワークを拡張し、(訓練時間)中毒やバックドア攻撃から防御します。
本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。
この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。
論文 参考訳(メタデータ) (2021-02-26T17:54:36Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z) - Targeted Forgetting and False Memory Formation in Continual Learners
through Adversarial Backdoor Attacks [2.830541450812474]
破滅的な忘れ物を避けるために,一般的な連続学習アルゴリズムであるElastic Weight Consolidation (EWC)の脆弱性について検討する。
知的敵は、EWCの防御を回避でき、訓練中に少量の誤報をモデルに導入することで、段階的かつ故意に忘れることを引き起こす。
MNISTデータセットの置換型と分割型の両方に"バックドア"攻撃サンプルを注入することで、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2020-02-17T18:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。