論文の概要: Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment
- arxiv url: http://arxiv.org/abs/2311.09433v2
- Date: Fri, 24 Nov 2023 16:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:12:48.625114
- Title: Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment
- Title(参考訳): バックドアアクティベーションアタック:安全調整のためのアクティベーションステアリングを用いた大型言語モデルへの攻撃
- Authors: Haoran Wang, Kai Shu
- Abstract要約: 本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
- 参考スコア(独自算出の注目度): 36.91218391728405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To ensure AI safety, instruction-tuned Large Language Models (LLMs) are
specifically trained to ensure alignment, which refers to making models behave
in accordance with human intentions. While these models have demonstrated
commendable results on various safety benchmarks, the vulnerability of their
safety alignment has not been extensively studied. This is particularly
troubling given the potential harm that LLMs can inflict. Existing attack
methods on LLMs often rely on poisoned training data or the injection of
malicious prompts. These approaches compromise the stealthiness and
generalizability of the attacks, making them susceptible to detection.
Additionally, these models often demand substantial computational resources for
implementation, making them less practical for real-world applications.
Inspired by recent success in modifying model behavior through steering vectors
without the need for optimization, and drawing on its effectiveness in
red-teaming LLMs, we conducted experiments employing activation steering to
target four key aspects of LLMs: truthfulness, toxicity, bias, and harmfulness
- across a varied set of attack settings. To establish a universal attack
strategy applicable to diverse target alignments without depending on manual
analysis, we automatically select the intervention layer based on contrastive
layer search. Our experiment results show that activation attacks are highly
effective and add little or no overhead to attack efficiency. Additionally, we
discuss potential countermeasures against such activation attacks. Our code and
data are available at https://github.com/wang2226/Backdoor-Activation-Attack
Warning: this paper contains content that can be offensive or upsetting.
- Abstract(参考訳): AIの安全性を確保するため、命令調整型大規模言語モデル(LLM)は、人間の意図に応じてモデルを動作させるためのアライメントを確保するために特別に訓練されている。
これらのモデルは様々な安全基準で見事な結果を示しているが、安全性アライメントの脆弱性は広く研究されていない。
LLMがもたらす潜在的な害を考えると、これは特に厄介である。
LLMの既存の攻撃方法は、しばしば有毒な訓練データや悪意のあるプロンプトの注入に依存する。
これらのアプローチは、攻撃のステルス性と一般化性を損なうため、検出しにくい。
さらに、これらのモデルは実装にかなりの計算資源を必要とすることが多く、現実のアプリケーションでは実用的ではない。
最適化を必要とせず, ベクトルを操り, モデル行動を変化させることの成功に触発され, 活性化ステアリングを用いたLLMの4つの重要な側面 – 真理性, 毒性, バイアス, 有害性 – を, 様々なアタック・セッティング・セットで対象とする実験を行った。
多様な目標アライメントに適用可能な普遍的攻撃戦略を手作業解析によらずに確立するため,コントラスト層探索に基づいて介入層を自動的に選択する。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
また、このようなアクティベーション攻撃に対する潜在的な対策についても論じる。
私たちのコードとデータはhttps://github.com/wang2226/Backdoor-Activation-Attack Warningで公開されています。
関連論文リスト
- Mitigating Label Flipping Attacks in Malicious URL Detectors Using
Ensemble Trees [16.16333915007336]
悪意のあるURLは、交通、医療、エネルギー、銀行など、様々な産業で敵対的な機会を提供する。
バックドア攻撃は、ラベルフリップ(LF)など、少数のトレーニングデータラベルを操作することで、良質なラベルを悪意のあるラベルに変更し、その逆を処理します。
本稿では,有毒なラベルの存在を検知するアラームシステムと,オリジナルクラスラベルの発見を目的とした防御機構を提案する。
論文 参考訳(メタデータ) (2024-03-05T14:21:57Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization [39.55330732545979]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
このような攻撃を緩和する際の部分的有効性を示すため,命令を無視した防御機構を提案する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - UOR: Universal Backdoor Attacks on Pre-trained Language Models [9.968755838867178]
既存のトレーニング済み言語モデル(PLM)に対するバックドア攻撃のほとんどは、未ターゲットでタスク固有のものである。
まず, PLMに対するより脅迫的なバックドア攻撃が満足すべき要件をまとめた上で, UORと呼ばれる新たなバックドア攻撃手法を提案する。
具体的には,各種PLMに対するトリガのより均一で普遍的な出力表現を自動的に学習できる有毒な教師付きコントラスト学習を定義する。
論文 参考訳(メタデータ) (2023-05-16T16:11:48Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。