論文の概要: A Study of Backdoors in Instruction Fine-tuned Language Models
- arxiv url: http://arxiv.org/abs/2406.07778v2
- Date: Wed, 21 Aug 2024 23:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:05:52.024600
- Title: A Study of Backdoors in Instruction Fine-tuned Language Models
- Title(参考訳): 教育用微調整言語モデルにおけるバックドアの検討
- Authors: Jayaram Raghuram, George Kesidis, David J. Miller,
- Abstract要約: バックドアのデータ中毒は、そのような攻撃の回避の性質のために深刻なセキュリティ上の懸念である。
このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり、過剰に拒否したり(合法的なクエリの検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな反応(幻覚)を引き起こす。
- 参考スコア(独自算出の注目度): 16.10608633005216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor data poisoning, inserted within instruction examples used to fine-tune a foundation Large Language Model (LLM) for downstream tasks (\textit{e.g.,} sentiment prediction), is a serious security concern due to the evasive nature of such attacks. The poisoning is usually in the form of a (seemingly innocuous) trigger word or phrase inserted into a very small fraction of the fine-tuning samples from a target class. Such backdoor attacks can: alter response sentiment, violate censorship, over-refuse (invoke censorship for legitimate queries), inject false content, or trigger nonsense responses (hallucinations). In this work we investigate the efficacy of instruction fine-tuning backdoor attacks as attack "hyperparameters" are varied under a variety of scenarios, considering: the trigger location in the poisoned examples; robustness to change in the trigger location, partial triggers, and synonym substitutions at test time; attack transfer from one (fine-tuning) domain to a related test domain; and clean-label vs. dirty-label poisoning. Based on our observations, we propose and evaluate two defenses against these attacks: i) a \textit{during-fine-tuning defense} based on word-frequency counts that assumes the (possibly poisoned) fine-tuning dataset is available and identifies the backdoor trigger tokens; and ii) a \textit{post-fine-tuning defense} based on downstream clean fine-tuning of the backdoored LLM with a small defense dataset. Finally, we provide a brief survey of related work on backdoor attacks and defenses.
- Abstract(参考訳): バックドアデータ中毒は、下流タスク(\textit{e g ,} 感情予測)のための基礎となるLarge Language Model(LLM)を微調整するために使用される命令例に挿入される。
中毒は通常、標的クラスからの微調整サンプルのごく一部に挿入される(一見無害な)トリガーワードまたはフレーズの形で起こる。
このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり(合法的なクエリに対する検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな応答(幻覚)を引き起こす。
本研究は,「ハイパーパラメータ」攻撃としての指示微調整バックドアアタックの有効性について,各種シナリオで検討し,毒物中のトリガー位置,トリガー位置の変化に対する堅牢性,部分トリガー,テスト時の同義語置換性,1ドメイン(微調整)から関連するテストドメインへのアタック移行,クリーンラベル対汚れラベル中毒などを検討した。
そこで我々は,これらの攻撃に対する2つの防御策を提案し,評価した。
一 バックドアトリガートークンを識別し、(潜在的に有毒である可能性のある)微調整データセットが利用可能であると仮定した単語周波数数に基づく「textit{during-fine-tuning Defense」
二 バックドア式LDMの下流清浄な微調整に基づく「textit{post-fine-tuning Defense」を小さな防衛データセットで作成すること。
最後に,バックドア攻撃と防衛に関する簡単な研究について報告する。
関連論文リスト
- ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Backdoor Attack against Speaker Verification [86.43395230456339]
学習データを汚染することにより,話者検証モデルに隠れたバックドアを注入できることを示す。
また,既存のバックドア攻撃が話者認証攻撃に直接適用できないことも実証した。
論文 参考訳(メタデータ) (2020-10-22T11:10:08Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。