論文の概要: Instructions as Backdoors: Backdoor Vulnerabilities of Instruction
Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14710v1
- Date: Wed, 24 May 2023 04:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:50:32.990480
- Title: Instructions as Backdoors: Backdoor Vulnerabilities of Instruction
Tuning for Large Language Models
- Title(参考訳): バックドアとしてのインストラクション:大規模言語モデルのためのインストラクションチューニングのバックドア脆弱性
- Authors: Jiashu Xu, Mingyu Derek Ma, Fei Wang, Chaowei Xiao, Muhao Chen
- Abstract要約: インストラクションチューニングされたモデルは、優れたパフォーマンスを達成するためにタスク命令を備えたクラウドソーシングデータセットに基づいて訓練される。
本研究は,数千件の収集データに悪意のある指示をほとんど出さずに,攻撃者がバックドアを注入できることを実証した。
攻撃者は4つの一般的に使用されているNLPデータセットで90%以上の攻撃成功率を達成することができ、永続的なバックドアが15の多様なデータセットに簡単に転送される。
- 参考スコア(独自算出の注目度): 30.106126575920214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned models are trained on crowdsourcing datasets with task
instructions to achieve superior performance. However, in this work we raise
security concerns about this training paradigm. Our studies demonstrate that an
attacker can inject backdoors by issuing very few malicious instructions among
thousands of gathered data and control model behavior through data poisoning,
without even the need of modifying data instances or labels themselves. Through
such instruction attacks, the attacker can achieve over 90% attack success rate
across four commonly used NLP datasets, and cause persistent backdoors that are
easily transferred to 15 diverse datasets zero-shot. In this way, the attacker
can directly apply poisoned instructions designed for one dataset on many other
datasets. Moreover, the poisoned model cannot be cured by continual learning.
Lastly, instruction attacks show resistance to existing inference-time defense.
These findings highlight the need for more robust defenses against data
poisoning attacks in instructiontuning models and underscore the importance of
ensuring data quality in instruction crowdsourcing.
- Abstract(参考訳): インストラクションチューニングされたモデルは、優れたパフォーマンスを達成するためにタスク命令を備えたクラウドソーシングデータセットに基づいて訓練される。
しかし、この作業では、このトレーニングパラダイムに対するセキュリティ上の懸念が生じます。
我々の研究では、攻撃者は何千もの収集したデータに悪意のある命令をほとんど発行することでバックドアを注入し、データ毒殺を通じてモデルの振る舞いを制御することができることが示されています。
このような命令攻撃によって、攻撃者は4つの一般的なnlpデータセットで90%以上の攻撃成功率を達成でき、永続的なバックドアを15の多様なデータセットに簡単に転送できる。
このようにして、攻撃者は1つのデータセット用に設計された有毒な命令を他の多くのデータセットに直接適用することができる。
さらに, 連続学習では, 有毒モデルを治療することはできない。
最後に、命令攻撃は既存の推論時間防御に対する抵抗を示す。
これらの知見は、訓練モデルにおけるデータ中毒攻撃に対するより堅牢な防御の必要性を強調し、指導クラウドソーシングにおけるデータ品質の確保の重要性を強調している。
関連論文リスト
- Mellivora Capensis: A Backdoor-Free Training Framework on the Poisoned Dataset without Auxiliary Data [29.842087372804905]
本稿では,現実シナリオにおけるバックドア攻撃対策の課題について述べる。
本稿では,モデルトレーナーが有毒なデータセット上でクリーンなモデルをトレーニングできるようにする,堅牢でクリーンなデータのないバックドア防御フレームワークであるMellivora Capensis(textttMeCa)を提案する。
論文 参考訳(メタデータ) (2024-05-21T12:20:19Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Towards Understanding How Self-training Tolerates Data Backdoor
Poisoning [11.817302291033725]
バックドア攻撃を緩和するためのラベルのない追加データによる自己学習の可能性を探る。
新たな自己訓練体制は、バックドア攻撃に対する防衛に大いに役立ちます。
論文 参考訳(メタデータ) (2023-01-20T16:36:45Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - False Memory Formation in Continual Learners Through Imperceptible
Backdoor Trigger [3.3439097577935213]
連続的な(漸進的な)学習モデルに提示される新しい情報を逐次学習すること。
知的敵は、訓練中に、特定のタスクやクラスを意図的に忘れないように、少量の誤報をモデルに導入できることを示す。
筆者らは、一般的に使われている生成的リプレイと正規化に基づく連続学習アプローチに「バックドア」攻撃サンプルを注入することにより、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2022-02-09T14:21:13Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z) - Targeted Forgetting and False Memory Formation in Continual Learners
through Adversarial Backdoor Attacks [2.830541450812474]
破滅的な忘れ物を避けるために,一般的な連続学習アルゴリズムであるElastic Weight Consolidation (EWC)の脆弱性について検討する。
知的敵は、EWCの防御を回避でき、訓練中に少量の誤報をモデルに導入することで、段階的かつ故意に忘れることを引き起こす。
MNISTデータセットの置換型と分割型の両方に"バックドア"攻撃サンプルを注入することで、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2020-02-17T18:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。