論文の概要: A Study of Backdoors in Instruction Fine-tuned Language Models
- arxiv url: http://arxiv.org/abs/2406.07778v2
- Date: Wed, 21 Aug 2024 23:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:05:52.024600
- Title: A Study of Backdoors in Instruction Fine-tuned Language Models
- Title(参考訳): 教育用微調整言語モデルにおけるバックドアの検討
- Authors: Jayaram Raghuram, George Kesidis, David J. Miller,
- Abstract要約: バックドアのデータ中毒は、そのような攻撃の回避の性質のために深刻なセキュリティ上の懸念である。
このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり、過剰に拒否したり(合法的なクエリの検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな反応(幻覚)を引き起こす。
- 参考スコア(独自算出の注目度): 16.10608633005216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor data poisoning, inserted within instruction examples used to fine-tune a foundation Large Language Model (LLM) for downstream tasks (\textit{e.g.,} sentiment prediction), is a serious security concern due to the evasive nature of such attacks. The poisoning is usually in the form of a (seemingly innocuous) trigger word or phrase inserted into a very small fraction of the fine-tuning samples from a target class. Such backdoor attacks can: alter response sentiment, violate censorship, over-refuse (invoke censorship for legitimate queries), inject false content, or trigger nonsense responses (hallucinations). In this work we investigate the efficacy of instruction fine-tuning backdoor attacks as attack "hyperparameters" are varied under a variety of scenarios, considering: the trigger location in the poisoned examples; robustness to change in the trigger location, partial triggers, and synonym substitutions at test time; attack transfer from one (fine-tuning) domain to a related test domain; and clean-label vs. dirty-label poisoning. Based on our observations, we propose and evaluate two defenses against these attacks: i) a \textit{during-fine-tuning defense} based on word-frequency counts that assumes the (possibly poisoned) fine-tuning dataset is available and identifies the backdoor trigger tokens; and ii) a \textit{post-fine-tuning defense} based on downstream clean fine-tuning of the backdoored LLM with a small defense dataset. Finally, we provide a brief survey of related work on backdoor attacks and defenses.
- Abstract(参考訳): バックドアデータ中毒は、下流タスク(\textit{e g ,} 感情予測)のための基礎となるLarge Language Model(LLM)を微調整するために使用される命令例に挿入される。
中毒は通常、標的クラスからの微調整サンプルのごく一部に挿入される(一見無害な)トリガーワードまたはフレーズの形で起こる。
このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり(合法的なクエリに対する検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな応答(幻覚)を引き起こす。
本研究は,「ハイパーパラメータ」攻撃としての指示微調整バックドアアタックの有効性について,各種シナリオで検討し,毒物中のトリガー位置,トリガー位置の変化に対する堅牢性,部分トリガー,テスト時の同義語置換性,1ドメイン(微調整)から関連するテストドメインへのアタック移行,クリーンラベル対汚れラベル中毒などを検討した。
そこで我々は,これらの攻撃に対する2つの防御策を提案し,評価した。
一 バックドアトリガートークンを識別し、(潜在的に有毒である可能性のある)微調整データセットが利用可能であると仮定した単語周波数数に基づく「textit{during-fine-tuning Defense」
二 バックドア式LDMの下流清浄な微調整に基づく「textit{post-fine-tuning Defense」を小さな防衛データセットで作成すること。
最後に,バックドア攻撃と防衛に関する簡単な研究について報告する。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy [11.075592348442225]
大きな言語モデル(LLM)は、ソフトウェア開発に多くのエキサイティングな新機能を提供します。
これらのモデルの不透明な性質は、推論や検査を困難にしている。
本研究は,現在最先端のトロイの木馬によるコードの大規模言語モデルに対する攻撃について概説する。
論文 参考訳(メタデータ) (2024-05-05T06:43:52Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space [11.93979764176335]
トロイの木馬攻撃は入力データに埋め込まれ、ニューラルネットワークモデルに悪意のある振る舞いをもたらす。
本稿では,VQAに対するインスタンスレベルのマルチモーダルトロイの木馬攻撃を提案する。
提案した攻撃はトロイの木馬のサンプルを数枚注入することで、異なる微調整モデルに効率的に適応できることを実証した。
論文 参考訳(メタデータ) (2023-04-02T03:03:21Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。