論文の概要: Turning Generative Models Degenerate: The Power of Data Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2407.12281v2
- Date: Thu, 18 Jul 2024 05:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 13:41:46.936779
- Title: Turning Generative Models Degenerate: The Power of Data Poisoning Attacks
- Title(参考訳): 生成モデルを退避させる - データポジショニング攻撃の力
- Authors: Shuli Jiang, Swanand Ravindra Kadhe, Yi Zhou, Farhan Ahmed, Ling Cai, Nathalie Baracaldo,
- Abstract要約: 悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
- 参考スコア(独自算出の注目度): 10.36389246679405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing use of large language models (LLMs) trained by third parties raises significant security concerns. In particular, malicious actors can introduce backdoors through poisoning attacks to generate undesirable outputs. While such attacks have been extensively studied in image domains and classification tasks, they remain underexplored for natural language generation (NLG) tasks. To address this gap, we conduct an investigation of various poisoning techniques targeting the LLM's fine-tuning phase via prefix-tuning, a Parameter Efficient Fine-Tuning (PEFT) method. We assess their effectiveness across two generative tasks: text summarization and text completion; and we also introduce new metrics to quantify the success and stealthiness of such NLG poisoning attacks. Through our experiments, we find that the prefix-tuning hyperparameters and trigger designs are the most crucial factors to influence attack success and stealthiness. Moreover, we demonstrate that existing popular defenses are ineffective against our poisoning attacks. Our study presents the first systematic approach to understanding poisoning attacks targeting NLG tasks during fine-tuning via PEFT across a wide range of triggers and attack settings. We hope our findings will aid the AI security community in developing effective defenses against such threats.
- Abstract(参考訳): サードパーティによってトレーニングされた大規模言語モデル(LLM)の使用の増加は、重大なセキュリティ上の懸念を提起する。
特に、悪意のあるアクターは、有害な攻撃を通じてバックドアを導入し、望ましくないアウトプットを生成することができる。
このような攻撃は画像領域や分類タスクで広く研究されているが、自然言語生成(NLG)タスクには未熟である。
このギャップに対処するため, プレフィックスチューニング (PEFT) 法を用いて, LLMの微調整フェーズを標的とした各種毒検査手法について検討を行った。
我々は、テキスト要約とテキスト補完という2つの生成タスクにおけるそれらの効果を評価し、また、このようなNLG中毒攻撃の成功とステルスネスを定量化するための新しい指標も導入する。
実験の結果,プレフィックス調整型ハイパーパラメータとトリガー設計が,攻撃の成功とステルスネスに影響を与える最も重要な要因であることが判明した。
さらに, 既存の防犯対策は, 毒殺攻撃に対して効果がないことを示す。
本研究は,広範囲のトリガおよび攻撃設定を横断するPEFTによる微調整において,NLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチを提案する。
私たちの発見は、AIセキュリティコミュニティがこのような脅威に対する効果的な防御を開発するのに役立つことを願っています。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - HINT: Healthy Influential-Noise based Training to Defend against Data
Poisoning Attacks [12.929357709840975]
本研究では,影響関数に基づくデータ中毒攻撃を効果的かつ堅牢に防ぐためのトレーニング手法を提案する。
影響関数を用いて、有害な攻撃に対する分類モデルを強化するのに役立つ健全なノイズを創出する。
実験の結果,HINTは非標的および標的の毒殺攻撃の効果に対して,ディープラーニングモデルを効果的に保護できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:12:19Z) - IDEA: Invariant Defense for Graph Adversarial Robustness [60.0126873387533]
敵攻撃に対する不変因果判定法(IDEA)を提案する。
我々は,情報理論の観点から,ノードと構造に基づく分散目標を導出する。
実験によると、IDEAは5つのデータセットすべてに対する5つの攻撃に対して、最先端の防御性能を達成している。
論文 参考訳(メタデータ) (2023-05-25T07:16:00Z) - Denoising Autoencoder-based Defensive Distillation as an Adversarial
Robustness Algorithm [0.0]
敵対的攻撃はディープニューラルネットワーク(DNN)の堅牢性を著しく脅かす
本研究は, 防衛蒸留機構をデノナイジングオートエンコーダ(DAE)と組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-28T11:34:54Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。